Checking hardware error in linux

Kernel/hardware errors

Перед тем, как заполнять баг-репорт, рекомендуется провести проверку аппаратных компонентов на наличие ошибок. Возникновение аппаратных проблем может привести к появлению «мистических глюков», которые никто не сможет исправить, так как они специфичны только для вашего устройства. Однако эти глюки будут отнимать время и вызывать ложные подозрения о наличии ошибок в ПО.

Память

Проверка

  • Memtest86+: как правило, доступен в меню Advanced options for ALT Sisyphus Sisyphus при загрузке через grub. — https://www.memtest.org/
  • efi-memtest86: (при загрузке через EFI) — https://www.memtest86.com/
    Для использования необходимо:
    1. установить пакет efi-memtest86 и скопировать /usr/lib64/efi/memtest86.efi в /boot/efi
    2. установить пакет edk2-efi-shell и скопировать /usr/lib64/efi/shell.efi в /boot/efi
    3. В BIOS запустить EFI Shell и там запустить memtest86 .

Один прогон проверки памяти может занимать несколько часов.

Мониторинг ошибок

  • mcelog: (считается устаревшим и) не поддерживается в ядрах Альта (отсутствует /dev/mcelog устройство).
    «mcelog logs and accounts machine checks (in particular memory, IO, and CPU hardware errors) on modern x86 Linux systems.» — https://mcelog.org/
  • edac-util: рабочий вариант, но плохо поддерживается апстримом.
    «Userspace helper for kernel EDAC drivers (Error Detection and Correction)» — https://github.com/grondo/edac-utils
  • rasdaemon: современное решение. Мониторит не только память, а любые доступные ему аппаратные ошибки.
    «Those tools provide a way to get Platform Reliability, Availability and Serviceability (RAS) reports made via the Kernel tracing events.» — https://github.com/mchehab/rasdaemon
# apt-get install rasdaemon # systemctl enable --now rasdaemon

Диски

  • smartmontools:
    • Утилита smartctl показывает информацию по состоянию дисков из S.M.A.R.T. Так же она позволяет запустить два внутренних теста дисков (self-tests) — т.н. короткий и долгой (сканирует всю поверхность дисков).
    • Сервис smartd: позволяет постоянно мониторить S.M.A.R.T. параметры.

    Сеть

    • iproute2:
      • Команда ip link : покажет физическое состояние (наличие сигнала) каждого интерфейса: NO-CARRIER или LOWER_UP .
      • Команда ip -s link : дополнительно покажет статистику в столбцах errors.

      Сообщения ядра

      • dmesg -l err список сообщений об ошибках в логе ядра — среди них могут быть сообщения от аппаратных ошибках.
      • journalctl -k -p err та же информация в системе с systemd. Кроме того, dmesg буфер может заполниться и потерять начало загрузки системы, а в журнале информация все ещё быть.
      mce: [Hardware Error]: Machine check events logged mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 0: 9400004000040150 mce: [Hardware Error]: TSC 14e0d7f5aadeb0 ADDR 1ffffb00b542f mce: [Hardware Error]: PROCESSOR 0:a0655 TIME 1682972918 SOCKET 0 APIC 6 microcode f4

      Источник

      Kernel/hardware errors

      Перед тем, как заполнять баг-репорт, рекомендуется провести проверку аппаратных компонентов на наличие ошибок. Возникновение аппаратных проблем может привести к появлению «мистических глюков», которые никто не сможет исправить, так как они специфичны только для вашего устройства. Однако эти глюки будут отнимать время и вызывать ложные подозрения о наличии ошибок в ПО.

      Память

      Проверка

      • Memtest86+: как правило, доступен в меню Advanced options for ALT Sisyphus Sisyphus при загрузке через grub. — https://www.memtest.org/
      • efi-memtest86: (при загрузке через EFI) — https://www.memtest86.com/
        Для использования необходимо:
        1. установить пакет efi-memtest86 и скопировать /usr/lib64/efi/memtest86.efi в /boot/efi
        2. установить пакет edk2-efi-shell и скопировать /usr/lib64/efi/shell.efi в /boot/efi
        3. В BIOS запустить EFI Shell и там запустить memtest86 .

      Один прогон проверки памяти может занимать несколько часов.

      Мониторинг ошибок

      • mcelog: (считается устаревшим и) не поддерживается в ядрах Альта (отсутствует /dev/mcelog устройство).
        «mcelog logs and accounts machine checks (in particular memory, IO, and CPU hardware errors) on modern x86 Linux systems.» — https://mcelog.org/
      • edac-util: рабочий вариант, но плохо поддерживается апстримом.
        «Userspace helper for kernel EDAC drivers (Error Detection and Correction)» — https://github.com/grondo/edac-utils
      • rasdaemon: современное решение. Мониторит не только память, а любые доступные ему аппаратные ошибки.
        «Those tools provide a way to get Platform Reliability, Availability and Serviceability (RAS) reports made via the Kernel tracing events.» — https://github.com/mchehab/rasdaemon
      # apt-get install rasdaemon # systemctl enable --now rasdaemon

      Диски

      • smartmontools:
        • Утилита smartctl показывает информацию по состоянию дисков из S.M.A.R.T. Так же она позволяет запустить два внутренних теста дисков (self-tests) — т.н. короткий и долгой (сканирует всю поверхность дисков).
        • Сервис smartd: позволяет постоянно мониторить S.M.A.R.T. параметры.

        Сеть

        • iproute2:
          • Команда ip link : покажет физическое состояние (наличие сигнала) каждого интерфейса: NO-CARRIER или LOWER_UP .
          • Команда ip -s link : дополнительно покажет статистику в столбцах errors.

          Сообщения ядра

          • dmesg -l err список сообщений об ошибках в логе ядра — среди них могут быть сообщения от аппаратных ошибках.
          • journalctl -k -p err та же информация в системе с systemd. Кроме того, dmesg буфер может заполниться и потерять начало загрузки системы, а в журнале информация все ещё быть.
          mce: [Hardware Error]: Machine check events logged mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 0: 9400004000040150 mce: [Hardware Error]: TSC 14e0d7f5aadeb0 ADDR 1ffffb00b542f mce: [Hardware Error]: PROCESSOR 0:a0655 TIME 1682972918 SOCKET 0 APIC 6 microcode f4

          Источник

          How to check for hardware faults?

          (This one happens roughly 50% of the time on boot) All of these started appearing in a fairly short time (~2 weeks) And since all of them could be caused by a hardware failure, I am most worried, is there a software way to test all or most of the hardware? (Apart from the firmware crash, which causes the wifi to stop working, I did not see any impact of the previous errors)

          Could be the new kernel you have has issues with the old firmware you’ve installed. How did you install the firmware?

          3 Answers 3

          The most practical way of confirming its hardware is to boot to known-good software. For example, an old kernel. Old firmware would be good too — a Live CD/DVD you know works would be great.

          Also, check your logs — are you sure it only started 2 weeks ago? Or did you only start noticing it then?

          Also, at least if this a desktop PC (relatively easy to open & look at), take a moment to do a visual inspection of the hardware: are all the fans spinning? Are there any missing heatsinks (and are the heatsinks free of dust/lint)? Any bulging capacitors? Since there are a bunch of PCIe errors, if you’re comfortable with hardware, you could also reseat all the PCIe cards.

          [Actual test equipment to prove the existence of a hardware fault would likely cost substantially more than just replacing the computer.]

          The second and fourth sets of log messages are from the Atheros wireless drivers for your particular hardware. They could be caused by hardware issues, but they could also be caused by firmware problems. I’ve not dealt with stuff from this particular driver before, so I can’t be much help on those.

          The first and third sets are both from the PCI-e subsystem directly. Both are talking about corrected errors. I have dealt with these types of errors before, and I can say from experience that they almost always indicate a hardware issue of some sort (though it may not be bad hardware). The standard procedure I use when I come across this type of error is:

          • Double check that there are no missing heatsinks, that all the fans are running correctly, and that there is no dust buildup.
          • For each add-in card (not only the one showing the problems), remove the card and do the following (replacing the card if it fails at any point):
            • Inspect the contacts on the edge of the card for signs of corrosion or damage.
            • Inspect any electrolytic capacitors for signs of leakage.
            • Inspect any plastic cased components for signs of melting.
            • Inspect the whole board for burn marks, unusual discoloration, or other damage.
            • Verify that the board doesn’t smell unusual, preferrably shortly after it’s been powered. An odd smell is usually indicative of leaking capacitors or overheated components, and will usually be present even if there is no visible indication of such problems.
            • Inspect the slot on the mainboard from which the card was removed, looking for evidence of bent contacts, corrosion, or melting (a good magnifying glass is useful for this).

            On the plus side, you can be reasonably certain that the issue is specific to either the PCI express subsystem (and therefore is either a bad card or a bad mainboard), the power supply (though this is unlikely, if it were your power supply, you would probably be seeing other symptoms), or the firmware on the motherboard.

            Источник

            How To Check Hardware Errors In Linux

            How To Check Hardware Errors In Linux

            We have collected for you the most relevant information on How To Check Hardware Errors In Linux, as well as possible solutions to this problem. Take a look at the links provided and find the solution that works. Other people have encountered How To Check Hardware Errors In Linux before you, so use the ready-made solutions.

            Linux x86_64: Detecting Hardware Errors — nixCraft

              https://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html
              Jun 02, 2009 · Program such mcelog decodes machine check events (hardware errors) on x86-64 machines running a 64-bit Linux kernel. It should be run regularly as a cron job on any x86-64 Linux system. This is useful for predicting server hardware failure before actual server crash.

            Check Hardware Information On Linux via Command Line

              https://www.maketecheasier.com/check-hardware-information-linux/
              Jan 02, 2016 · How to Check Hardware Information on Linux Using Command Line. By Hitesh Jethva / Jan 2, 2016 / Linux. There are many commands available to check hardware information of your Linux system. Some commands report only specific hardware components like CPU or memory while the rest cover multiple hardware units.

            How to Check Bad Sectors or Bad Blocks on Hard Disk in Linux

              https://www.tecmint.com/check-linux-hard-disk-bad-sectors-bad-blocks/
              Oct 26, 2016 · Check Bad Sectors in Linux Disks Using badblocks Tool A badblocks program enables users to scan a device for bad sectors or blocks. The device can be a hard disk or an external disk drive, represented by a file such as /dev/sdc.

            10 Useful Commands to Collect System and Hardware .

              https://www.tecmint.com/commands-to-collect-system-and-hardware-information-in-linux/
              Sep 13, 2012 · 10 Commands to Check Hardware and System Information in Linux. Therefore in these tips and tricks series, we shall look at some useful commands that can help you to extract information about your Linux system and hardware components.. 1. How to View Linux System Information. To know only system name, you can use uname command without any switch will print system …

            How To Check Hardware Errors In Linux Fixes & Solutions

            We are confident that the above descriptions of How To Check Hardware Errors In Linux and how to fix it will be useful to you. If you have another solution to How To Check Hardware Errors In Linux or some notes on the existing ways to solve it, then please drop us an email.

            SIMILAR Errors:

            • Hugin Filename Error
            • Hp Fatal Error Msi.Devicediscovery
            • How To Handle Medical Billing Errors
            • How To Wipe Your Blackberry Jvm Error 102
            • Hp Comm Error 388
            • Hard Disk Errore Ridondanza
            • How To Solve Http 403 Forbidden Error In Windows 7
            • Http Error 404.17 Not Found Wcf
            • Html Img Onerror Event
            • How To Fix Error 21 Apple Tv 2
            • Hp 4250dtn 50.2 Fuser Error
            • How To Calculate Unbiased Percent Error
            • Http Status 500 Internal Server Error Akeeba
            • Herramienta De Comprobacion De Errores De Disco Duro
            • How To Fix Parse Error In Samsung
            • Hp Laserjet Fusor Error
            • Heroes 3 Error Connecting To The Session
            • How To Avoid Unforced Errors In Badminton
            • Hp Officejet 6500 Printer Status Error
            • How To Start Diagnostic Policy Service Error 5

            Источник

            Читайте также:  Linux удалить скрытую папку
Оцените статью
Adblock
detector