Компонент память источник ошибки универсальное тип ошибки однобитовая ecc
Несколько дней назад, стали падать на рабочий стол тяжелые игры. В логах ошибки вида:
Нет доступа к файлу по одной из следующих причин: либо возникли проблемы с сетевым подключением, диском с файлом или хранилищем с драйверами, установленными на этом компьютере, либо этот диск отсутствует. Программа The Evil Within 2 будет закрыта из-за этой ошибки.
Программа: The Evil Within 2
Файл:
Код ошибки приведен в разделе "Дополнительные данные".
Действие пользователя
1. Снова откройте файл. Проблема может быть временной и исправится сама собой при повторном запуске программы.
2. Если к файлу все равно нет доступа и при этом:
- он расположен на сетевом диске, сетевой администратор должен проверить, что сеть работает нормально и что к серверу есть доступ;
- он находится на съемном диске, например на дискете или компакт-диске, убедитесь, что диск полностью вставлен в компьютер.
3. Проверьте и восстановите файловую систему с помощью команды CHKDSK. Чтобы запустить команду CHKDSK, щелкните "Пуск", "Выполнить", введите "CMD" и нажмите "ОК". В командной строке введите команду "CHKDSK /F" и нажмите клавишу "ВВОД".
4. Если не удалось устранить проблему, восстановите файл из архивной копии.
5. Проверьте, можно ли открыть другие файлы на этом же диске. Если нет, то возможно, что диск поврежден. Если это жесткий диск, обратитесь за помощью к системному администратору или изготовителю оборудования.
Дополнительные данные
Значение ошибки: 00000008
Тип диска: 0
Произошла устраненная аппаратная ошибка.
Сообщивший компонент: ядро процессора
Источник ошибки: Исправленная ошибка проверки компьютера
Тип ошибки: Внутренняя ошибка четности
ИД APIC процессора: 2
Из своего опыта помню, что такое бывает при нехватке напруги на процессоре. В биосе было выставлено 4.1ГГц. Offset -0.120. Поднял до -0.110 - теперь ошибки вылезают редко, примерно раз в сутки. Но ведь раньше и этого не было. Два года проц работал на 4.0 ГГц без снижения напряжения и еще два на -0.110. Неужели прибавка 100Мгц несколько месяцев назад так повлияла или я не туда смотрю? (материнка, память?)
P.S. LinX 0.6.5 был пройден без проблем. Пиковая температура на самом горячем ядре - 72.
Доброго дня, комрады!
Проблема с логами, столкнулся сразу после покупки.
i5-6300HQ - 8GB DDR4 - GTX 950m - SSD M.2 120 - SSD SATA III 120 - HDD Toshiba 1 TB (вместо DVD)
Установлена Win 10 Home - лицензия была с ноутом.
Устранимая аппаратная ошибка.
Компонент: Порт PCI Express Root
Источник ошибки: Расширенный отчет об ошибках (PCI Express)
Шина:Устройство:Функция: 0x0:0x1C:0x4
ИД поставщика:ИД устройства: 0x8086:0xA114
Код класса: 0x30400
Дополнительные сведения содержатся в подробностях этой записи.
- | System |
[ Name] | Microsoft-Windows-WHEA-Logger |
[ Guid] |
[ ProcessID] | 3412 |
[ ThreadID] | 9304 |
ErrorSource | 4 |
FRUId |
FRUText |
ValidBits | 0xdf |
PortType | 4 |
Version | 0x101 |
Command | 0x10 |
Status | 0x406 |
Bus | 0x0 |
Device | 0x1c |
Function | 0x4 |
Segment | 0x0 |
SecondaryBus | 0x0 |
Slot | 0x0 |
VendorID | 0x8086 |
DeviceID | 0xa114 |
ClassCode | 0x30400 |
DeviceSerialNumber | 0x0 |
BridgeControl | 0x0 |
BridgeStatus | 0x0 |
UncorrectableErrorStatus | 0x0 |
CorrectableErrorStatus | 0x1000 |
HeaderLog | 00000000000000000000000000000000 |
Length | 672 |
RawData | 435045521002FFFFFFFF02000200000002000000A002000026110A00050112140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB571311FC093CF161AFC4DB8BC9C4DAF67C1046C2594DAEE85D30100000000000000000000000000000000000000000000000010010000D0000000000300000100000054E995D9C1BB0F43AD91B44DCB3C6F3500000000000000000000000000000000020000000000000000000000000000000000000000000000E0010000C00000000003000000000000ADCC7698B447DB4BB65E16F193C4F3DB00000000000000000000000000000000030000000000000000000000000000000000000000000000DF0000000000000004000000010100001000060400000000868014A1000403041C00000000000000000000000000000000000000108042010180000027001100234872054200223000FD440000004000080000000000000037080000100400000000000000000000000000000000000001000114000000000000000011000600001000000020000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000043010000000000000002000000000000E306050000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 |
Не смог найти по продукт и вендор ID, что это за устройство, предполагаю где-то чипсет, но не могу понять.
Что было сделано.
Обновлены все драйвера сперва с официального сайта Asus, все установлено без ошибок. Не помогло
Далее были скачаны все официальные последние драйвера с сайтов производителей.
Видеокарту с GeForce, Чипсет HM170 с сайта Intel и остальное так же. Так же без ошибок, все обновилось.
Но проблема не решена.
Насколько обращать внимание на это? Стоит ли парится и искать решение или из текста Logger, значит что то пытается слогировать но не получается, может и черт с ним, пускай не логирует?
Если надо решить, не прошу мне решить проблему вам, просто направьте в нужно русло!
Это событие означает проблему с железом.
В данном случае имеет место событие 19, это означает Corrected machine check error.
Данные которые записываются при этом описаны тут:
К сожалению почти все значения не установлены, а типа ошибки 12 в списке нет.
Впрочем, это скорее всего ничего не изменило бы, проблема все равно решается манипуляциями с железом.
Можно начать с замены блока питания на заведомо исправный. Далее замена процессора и матплаты. Конечно до этого не повредит сбросить настройки БИОС в самые надежные.
This posting is provided "AS IS" with no warranties, and confers no rights.
Если предположить, что проблема действительно в железе, то как тогда объяснить факт ее проявления только в рабочее время? Сервер работает круглосуточно, обновляется сам по выходным, ночью обновляются база консультанта и программы документооборота (на SQL сервере), постоянно работает виртуальная машина т.е. задействованы и сетевые карты и процессор и блок питания и прочее железо, но предупреждений нет с 19.00 вечером до 8.00 утра и по выходным дням.
Если предположить, что проблема действительно в железе, то как тогда объяснить факт ее проявления только в рабочее время? Сервер работает круглосуточно, обновляется сам по выходным, ночью обновляются база консультанта и программы документооборота (на SQL сервере), постоянно работает виртуальная машина т.е. задействованы и сетевые карты и процессор и блок питания и прочее железо, но предупреждений нет с 19.00 вечером до 8.00 утра и по выходным дням.
Ну а если предположить что проблема не в железе, то как бы вы это объяснили? Ведь сервер работает круглосуточно и так далее.
This posting is provided "AS IS" with no warranties, and confers no rights.
Ну а если предположить что проблема не в железе, то как бы вы это объяснили? Ведь сервер работает круглосуточно и так далее.
This posting is provided "AS IS" with no warranties, and confers no rights.
Если бы я мог с уверенностью объяснить этот факт, то не задавал бы вопрос на форуме опытным людям. Я предполагаю, что ошибка каким-то образом связана с сетевым подключением пользователей к серверу, ведь когда подключения отсутствуют, предупреждения не фиксируются, но пока не могу ее локализовать. Люди приходят на работу и снова появляются предупреждения. Запросы идут к базе SQL, базе консультанта, подключаются к интернету. Думал, что дело в VMware, переустановил все на VB, обновил сетевые драйвера - предупреждение осталось. По журналу видно (не могу загрузить скрин), что предупреждения появляется только с запуском первого компьютера в локальной сети в понедельник и пропадает после выключения последнего компьютера в пятницу. Аналогичная ситуация по ночам - первый комп в сети включили и пошли ошибки, выключили последний и ошибки прекратились.
Заметил еще одну закономерность, время всех предупреждений заканчивается на 10 секунд.
Иными словами, в рабочее время происходит нечто что вызывает проблему. Это совершенно логичное объяснение. Почему вы считайте что оно не подходит для аппаратной проблемы?
Почему я считаю что проблема аппаратная? Очень просто: WHEA (Windows Hardware Error Architecture) рапортует именно об аппаратных проблемах.
В данном случае ошибка была отрапортована процессором и устранена им же. Например, нарушение данных в кэш памяти было устранено за счет избыточного кодирования (просто пример, не ваш случай).
Выяснение что именно провоцирует проблему скорее всего никак не поможет ее устранить. Ну допустим что это работа с SQL, вы же не сможете перестать его использовать, так? А может быть это просто нагрузка на процессор, а не какое то конкретное приложение или железный компонент. Скажем, вздулись конденсаторы на матплате, как только возрастает нагрузка возникают определенные сбои, пока что незначительные и исправимые.
Таким образом остается тестировать железо методом замены пока проблема не будет устранена.
Как всегда в случаях проблем с железом следует рассмотреть такие факторы:
- С чего это началось, например был ли установлен какой либо новый компонент? Возможно он несовместим.
- Каково состояние железа, например сколько ему лет. Рано или поздно железо начнет отказывать, обычно после 3-5 лет.
- Каково состояние окружающей среды, например каково качество питания и поддержания температуры. Может когда все приходят в офис напряжение в сети проседает или появляются помехи от других нагрузок.
Можно и ничего не делать, ведь ошибка исправляется самим железом, во всяком случае пока.
This posting is provided "AS IS" with no warranties, and confers no rights.
Иными словами, в рабочее время происходит нечто что вызывает проблему. Это совершенно логичное объяснение. Почему вы считайте что оно не подходит для аппаратной проблемы?
Почему я считаю что проблема аппаратная? Очень просто: WHEA (Windows Hardware Error Architecture) рапортует именно об аппаратных проблемах.
В данном случае ошибка была отрапортована процессором и устранена им же. Например, нарушение данных в кэш памяти было устранено за счет избыточного кодирования (просто пример, не ваш случай).
Выяснение что именно провоцирует проблему скорее всего никак не поможет ее устранить. Ну допустим что это работа с SQL, вы же не сможете перестать его использовать, так? А может быть это просто нагрузка на процессор, а не какое то конкретное приложение или железный компонент. Скажем, вздулись конденсаторы на матплате, как только возрастает нагрузка возникают определенные сбои, пока что незначительные и исправимые.
Таким образом остается тестировать железо методом замены пока проблема не будет устранена.
Как всегда в случаях проблем с железом следует рассмотреть такие факторы:
- С чего это началось, например был ли установлен какой либо новый компонент? Возможно он несовместим.
- Каково состояние железа, например сколько ему лет. Рано или поздно железо начнет отказывать, обычно после 3-5 лет.
- Каково состояние окружающей среды, например каково качество питания и поддержания температуры. Может когда все приходят в офис напряжение в сети проседает или появляются помехи от других нагрузок.
Можно и ничего не делать, ведь ошибка исправляется самим железом, во всяком случае пока.
This posting is provided "AS IS" with no warranties, and confers no rights.
Железу 2 года, еще на гарантии, системник опечатан, а гарантийщикам для начала работы нужны более весомые доказательства неполадок, говорят, что это не железячные сбои. Сбои начались после переустановки двух виртуальных сетевых адаптеров в среде VMware, когда она использовалась (сейчас уже перешел на VB). Изначально все работало на VM, были предупреждения "Порт такой-то пытается использовать такой-то сетевой адаптер с id . который привязан к адаптеру с id. Фигурировали id виртуальных адаптеров, сеть отваливалась. Их переустановили, перенастроили и появилась ошибка WHEA, поэтому перешли на VB, но вопреки ожиданиям ошибка осталась, хотя сеть не отваливается и видимых неудобств не наблюдается. Сервер холодный, нагрузка на процессор выше 10% практически не поднимается даже днем, стоит качественный бесперебойник.
Кстати, как вариант: ничего не делать (так как проблема никак себя не проявляет), наблюдать за ситуацией.
This posting is provided "AS IS" with no warranties, and confers no rights.
На железе SQL сервер, Консультант, терминальный и файловый сервер. 2 сетевые карты (одна "смотрит" в локальную сеть, другая в Интернет). Установлен VirtualBox (до этого, я говорил, пользовался VMWare, где создавались под Керио два виртуальных сетевых адаптера, после чего и появилась ошибка, VB не требует создания виртуальных сетевых адаптеров, поэтому они удалены вместе с VM), крутится одна виртуальная машина с KerioControl (шлюз в локальной сети). Ошибки фиксируются на реальном хосте. Железо новое, полностью поддерживает ОС. По последнему варианту (ничего не делать) - так и поступаю последние пол года, но не приятно видеть эти предупреждения, хочется разобраться.
Мне кажется что наличие ВМ к проблеме отношения не имеет. На это указывает и тот факт что смена гипервизора ничего не изменила.
Так что я вернись к изначальной причине: имеется аппаратная проблема которая возникает при нагрузке. Без доступа к железу можно лишь попробовать выяснить какой именно софт провоцирует проблему.
Так если вы подозревайте ВМ, то временно уберите данный компонент и посмотрите что будет. Наверное не сложно будет временно заменить шлюз любым аппаратным раутером.
This posting is provided "AS IS" with no warranties, and confers no rights.
Здравствуйте. В журнал каждую минуту валит ошибку:
Motherboard: Z370 PC PRO (last bios version)
CPU: i5-8400
RAM: Kingston DDR4-2444
VGA: GeForce GTX 970
PSU: Chieftec 550W
OS: Windows 10 Pro 1803 (17134.112)
Подскажите пожалуйста как можно выявить виновника?
Все ответы
Если ориентироваться на ваш лог события:
То скорее всего проблема с процессором. Уточните пожалуйста появляется BSOD или образуются дампы (C:\Windows\MEMORY.dmp)?
P.S. Вы можете проверить если все ок с процессором следующей утилитой.
Avis de non-responsabilité:
Mon opinion ne peut pas coïncider avec la position officielle de Microsoft.
Bien cordialement, Andrei .
MCP
- Изменено SQx Moderator 15 августа 2018 г. 21:03 добавлено ссылка на утилиту
Могли бы указать версию Bios-а и дата релиза. На сторонних форумах пишут, что возможно проблема с Bios-ом.
Avis de non-responsabilité:
Mon opinion ne peut pas coïncider avec la position officielle de Microsoft.
Bien cordialement, Andrei .
MCP
Покажите пожалуйста результат следующей команды в командной строке(cmd.exe)
Avis de non-responsabilité:
Mon opinion ne peut pas coïncider avec la position officielle de Microsoft.
Bien cordialement, Andrei .
MCP
Уточните пожалуйста в безопасном режиме или в режиме чистой загрузке, проблема также воспроизводиться?
Avis de non-responsabilité:
Mon opinion ne peut pas coïncider avec la position officielle de Microsoft.
Bien cordialement, Andrei .
MCP
Avis de non-responsabilité:
Mon opinion ne peut pas coïncider avec la position officielle de Microsoft.
Bien cordialement, Andrei .
MCP
А точно было отключена автозагрузка и запуск не Microsoft Windows служб?
Предоставите лог сторонней антивирусной утилиты FRST согласно следующей инструкции (важно: данная утилита может показать возможное использования активаторов, использование которых нарушает лицензионое соглашение Microsoft):
- Скачайте Farbar Recovery Scan Toolи сохраните на Рабочем столе.
Примечание: необходимо выбрать версию, совместимую с Вашей операционной системой. Если Вы не уверены, какая версия подойдет для Вашей системы, скачайте обе и попробуйте запустить. Только одна из них запустится на Вашей системе.
- Запустите программу двойным щелчком. Когда программа запустится, нажмите Yes для соглашения с предупреждением.
- Убедитесь, что в окне Optional Scan отмечены "List BCD" и "Driver MD5".
Avis de non-responsabilité:
Mon opinion ne peut pas coïncider avec la position officielle de Microsoft.
Память с коррекцией ошибок (Error correction code - ECC) – это тип памяти, использующийся в рабочих станциях и серверах. В первую очередь она предназначена для бизнеса и профессиональных задач где критически важна работа с данными. Такая память позволяет исправлять ошибки в памяти и бороться с повреждением данных. Также предполагается, что она может сократить количество сбоев в работе сервера или рабочей станции. Все это позволяет использовать ECC RAM в профессиональных сферах и бизнесе, включая финансовые институты и облачные вычисления, где ошибки с данными и простои недопустимы.
Память ECC против обычной памяти
Физически ECC память отличается от обычной не ECC памяти (та, что используется в потребительских компьютерах и ноутбуках) наличием 9 чипов памяти с одной стороны вместо 8 (чипы памяти используются для хранения данных, которые при вызове отправляются в ЦПУ). Дополнительный чип памяти как раз используется для обнаружения и исправления ошибок в других 8 чипах.
Какое оборудование поддерживает ECC память?
Память ECC рассчитана на нагрузки корпоративного уровня, поэтому большинство потребительских материнских плат для ПК ее не поддерживают или работают без функции корректировки ошибок. Для того чтобы в полной мере воспользоваться преимуществами такой памяти вам нужна системная плата для рабочих станций либо для серверов. ECC память также стоит несколько дороже, в сравнении с обычными модулями, как раз из-за дополнительного чипа памяти.
И опять же ECC память в первую очередь предназначена для серверов и рабочих станций, поэтому для ее работы вам потребуется производительный процессор. Из модельного ряда Intel только серверная линейка Xeon предназначена для работы с ECC памятью и компания таким образом пытается отделить потребительские продукты от профессиональных. С другой стороны, компания AMD предлагает для энтузиастов многопоточные чипы Threadripper, которые поддерживают работу с таким типом памяти.
Недостатки ECC памяти
Возможно это покажется странным, но ECC память несколько медленней обычной памяти из-за того, что для проверки данных на ошибки требуется время. Вместе с тем, в 2014 году компания Puget провела исследования, согласно которым ECC память оказалась на 0,25 процента медленнее обычной памяти, а регистровая ECC память на 0,44 процента медленней. На наш взгляд данное исследование больше доказывает, что различия в производительности весьма незначительны.
Как работает ECC память?
Коррекция ошибок – это математический процесс, который обеспечивает правильность данных, хранящихся в памяти. В случае ошибки ECC также позволяет системе в реальном времени воссоздать правильные данные.
Одним из способов работы ECC памяти является контроль четности. При этом методе используется дополнительный бит который записывает четность остальных битов. К сожалению, несмотря на то, что дополнительный бит четности позволяет определить ошибку, он никак не способствует ее решению и в этом случае выполнение программы просто прерывается.
Большинство вычислительных систем перемещают данные большими блоками по 64 бита (они называются «машинным словом»). Вместо генерации одного дополнительного бита четности для каждых восьми битов данных, ECC генерирует семь дополнительных битов на 64 бита данных. Система выполняет сложный математический алгоритм на дополнительных семи битах данных, чтобы гарантировать, что остальные 64 бита являются правильными. В случае, если один бит неверен (однобитовая ошибка), алгоритм ECC может восстановить данные. Однако при более крупных ошибках (два или более бит) такой алгоритм может лишь уведомить систему.
Регистровая память
ECC память не всегда является регистровой, но с другой стороны любая регистровая память всегда является ECC памятью.
Регистровая память содержит регистр, который располагается между чипами памяти и системным контроллером памяти. Это позволяет уменьшить электрическую нагрузку на контроллер, а также установить большее количество модулей на один канал.
Читайте также: