Gpu driver error no temps hive os как исправить
There seems to be an unresolvable problem right now where the GPU would randomly throw a GPU driver error on mostly RTX 30 series cards.
Users already tried several things such as lowering OC, replacing thermal pads, etc. without success.
From my own experience the error appears more frequently on latest nvidia driver but still very often on 455.45.01.
Hashrate Watchdog also seems to be unreliable as it doesn't always reboot HiveOS leading to several hours of idling away.
Any guidance on this issue?
Thank you!
Comments (2)
Please contact our technical support service with your question.
mirzeydin commented on October 8, 2021
I was dealing with the same problem in the body, in the end the problem came from the power cable, insufficient power.
Use two gpu power cables, one power cable is not enough.
There are (2x8) cables, use one like this, two (2x8)
Related Issues (20)
Recommend Projects
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow
An Open Source Machine Learning Framework for Everyone
Django
The Web framework for perfectionists with deadlines.
Laravel
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
Recommend Topics
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
server
A server is a program made to process requests and deliver data to clients.
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
Recommend Org
We are working to build community through open source technology. NB: members must have two-factor auth.
Каждый пользователь Hive OS сталкивается с той или иной трудностью. Например, непониманием того, как обновить драйвера для AMD или Nvidia. В этом мануале вы сможете найти лайфхаки для решения самых популярных проблем.
Обновление драйверов AMD
Драйвера для карт AMD обновляются только вместе с образом. Для того, чтобы выбрать нужную вам версию, сначала запустите Hive Shell. Найти его можно в веб интерфейсе вашего воркера здесь:
После этого нажмите на этот значок:
Мы попали в Hive Shell. Теперь вводим команду:
Перед нами появился список всех доступных образов. Рядом с ними указаны версии драйверов. Если вам нужна последняя версия драйверов AMD, то просто введите ту цифру последнего стабильного образа (Last stable image):
После этого дождитесь установки нового образа и драйверов.
Вы также можете обновить драйвера AMD одной командой. Для этого в Hive Shell введите:
Начнется установка последнего стабильного образа и самых новых драйверов.
Обновление драйверов Nvidia
Для обновления драйверов Nvidia нам снова понадобится Hive Shell. Для просмотра всех доступных для скачивания версий драйверов вы можете ввести команду:
Появится список всех доступных для скачивания и установки драйверов. Введите нужную вам версию и нажмите клавишу Enter.
После установки воркер перезагрузится. Ваши драйвера обновлены.
Ошибка 511
“Autofan: GPU temperature 511 is unreal, driver error”, она же ошибка 511, обычно выглядит так:
При возникновении этой ошибки вам необходимо проверить райзеры, подключения к ним, кабеля и разъемы питания. Возможно где-то отошел или оплавился кабель, разъем.
Чтобы узнать из-за каких карт возникает эта ошибка, нажмите на нее. Откроется лог такого типа:
В данном случае нужно проверить райзеры, кабеля и разъемы второй и седьмой карты на шине. Номер карты на шине под номером GPU каждой карты в воркере.
GPU driver error, no temps
Часто пользователи сталкиваются с ошибкой GPU driver error, no temps. Обычно она выглядит так:
Чаще всего она возникает из-за переразгона. Попробуйте снизить параметры разгона. Если у вас карты Nvidia, то попробуйте увеличить значение параметра PL.
Из-за чего чаще всего возникает проблема на воркере?
Ниже представлен список, где чаще всего появляется проблема:
слишком высокие или слишком низкие настройки разгона
неправильные конфигурации майнера/полетного листа
неправильные настройки BIOS материнской платы
проблемы с соединением
Обновление Hive OS
В случае возникновения проблем, убедитесь, что вы используете последнюю версию образа HiveOS.
⚠️Внимание: Обновление Hive через веб интерфейс или в CLI (apt update && selfupgrade) не является обновлением образа.
Они состоят из обновлений майнеров, исправлений ошибок и незначительных дополнений функций, но они НЕ изменяют ваш основной образ.
Чтобы обновить образ, вы можете скачать его и прошить на ваш диск с помощью, например, balenaEtcher, или же вы можете выполнить Live Replace с помощью команды
Для этого либо подключитесь по SSH, либо используйте Hive Shell и выполните следующую команду:
Рекомендуемые настройки BIOS материнской платы
Обновите BIOS до последней версии и проверьте следующие настройки:
PCIe Link Speed GEN2
Декодирование 4G ВКЛЮЧЕНО
Поддержка CSM ОТКЛЮЧЕНА
Ошибки/вопросы
Температура GPU 511 нереальная
Это ошибка GPU, точнее, это сбой при отключении питания, при котором программное обеспечение пытается запросить GPU и не получает ничего или получает недействительные данные.
Обычно это вызвано плохим райзером/кабелем(ями), которые подключены к нему.
Проверьте свои кабели и избегайте использования SATA кабелей для питания райзеров.
0% скорости вращения вентиляторов / ошибки вентиляторов в целом
Это может произойти по нескольким причинам
- вентилятор действительно не вращается
- датчик оборотов отсоединен или сломан
- карта слишком сильно разогнана (обычно так и бывает).
Ошибки Illegal memory access
В основном вызваны слишком агрессивными настройками тактовой частоты памяти.
File-System is read-only
Перезагрузитесь, если проблема не исчезла, начните с перезаливки образа на ваш диск. Если ошибка повторяется, замените диск.
Stale shares are predominantly caused by network issues between your worker and the pool.
Invalid shares - возникают из-за плохого разгона. 1-2 инвалида(ов) за период 24 часа (или более) могут быть незначительными. Перезапустите майнер, чтобы избавиться от значка невалидных шар. Если вы начнете получать больше невалидных шар за более короткий промежуток времени, снизьте разгон.
Графические процессоры серии Nvidia 30x0 не показывают температуру памяти
Nvidia не отображает эти параметры в драйверах Linux. Когда/если они появятся, они будут доступны и видны, как и другие поддерживаемые карты. Проверьте тему на официальном форуме по этому вопросу.
Общее устранение неполадок
Включите и проверьте журналы (logs-on && reboot). Находится в /var/log/
Убедитесь, что все правильно установлено.
Проверьте и протестируйте райзеры/кабели и убедитесь, что все правильно подключено.
При необходимости тестируйте каждый GPU по отдельности, и только после того, как будет обеспечена стабильность, приступайте к работе.
❗️ Напоминаем, что по вопросам разгона вы можете обратиться в Off-Topic чат в телеграм.
Рекомендуемые майнеры
🧪 Все эти майнеры были тщательно протестированы. Они лучшие в плане стабильности и производительности:
✅ TeamRedMiner | lolMiner для AMD GPU.
✅ T-Rex | GMiner | lolMiner для графических процессоров Nvidia (lolMiner для 3060).
✅ lolMiner | GMiner для рабочих гибридов (AMD+Nvidia GPU).
⚠️ NOTE: Мы не рекомендуем следующие майнеры; ⚠️
🛑 Claymore - устарел, разработка полностью остановлена.
🛑 Ethminer - надежный майнер с открытым исходным кодом, но не обновляется и не имеет должной поддержки GPU нового поколения.
🛑 Phoenixminer - Известен тем, что намеренно завышает локальный хешрейт (2,5%-3,5% в большинстве случаев). Также вызывает многочисленные проблемы с пулом (низкая удача, прибыльность).
Что делать, если в этом мануале нет решения вашей проблемы?
Итак, мы разобрали основные проблемы и ошибки, с которыми чаще всего сталкиваются пользователи Hive OS. Если вы столкнулись с проблемой, которая не описана в этом мануале, то вы можете обратиться в любой из следующих ресурсов:
чат поддержки в телеграм (в чате вы можете воспользоваться поиском. Велика вероятность того, что решение вашей проблемы уже было написано)
Также у нас имеется база знаний, где вы также можете найти ответ на ваш вопрос.
Антон Проняшкин запись закреплена
он загрузился и это видимо должна была быть установка. но нет не установился поскольку на этом экране он провисел 2 часа без изменений. Пришлось перезагрузить (в кабинете хайва риг видно и он отвечает) и откатить майнер. Драйвер остался прежний, хайв обновился до последней, а майнер пришлось откатить на версию назад.
Повторные попытки обновить драйвер приводят к этому же экрану и ничего не движется далее. Хотя в прошлом драйвер обновлялся. правда с ошибкой. Ладно видимо буду ждать пока драйвера все же будут не в бета режиме.
При ошибке установки драйвера:
disk-expand для расширения раздела(чаще всего этого достаточно для решения проблемы)
Если проблему это не решило тогда:
mc и удалить неиспользуемые драйвера из папки /hive-driver-pack
hpkg remove miners noinstall - удалить все майнеры
logs-on
reboot
После перезагрузки:
miner stop - остановить майнер
wd stop - остановить хешрейтватчдог
apt update
nvidia-driver-update
Все эти процедуры выполнять желательно через селинабокс находясь в локальной сети с ригом или через hiveshell если риг далеко.
Ни в коем случае не вводить эти команды с клавиатуры подключенной прямо к ригу. И крайне нежелательно вводить эти команды через консоль. Консоль я бы рекомендовал только для ввода очень простых команд типа остановить/запустить майнер, посмотреть лог майнера и подобных.
А флешка на сколько Гб? Если на 7-8, то когда с ошибкой установишь, а потом пытаться откатить, и т.д. - то может потом признаков майнинга не подавать из-за переполнения флешки всяким новым мусором, в том числе удаленным некорректно. Ну это как бы такой, условно минимальный объем для функционирования системы. У меня так произошло. Переустанови заново- и делов-то на полчаса. Всё как с чистого листа, а мусорка по любому со временем накапливается. Установить можно на личном и любом компе, а потом просто флешку на майнинговый комп переткнуть. А также личный кабинет с майнерами и все настройки - на сайте полностью сохраняются.
Try lowering the memory oc. Was the solution for me when I got that error.
Clear out all your OC’s. just delete everything. Then fire it up. same issue? If so, you OC’s are too aggressive.
Maybe even turn off auto fan. didn’t work well for me.
I have the same issue on my rig which is 4x3070 and 2x3080 " the driver error, no temp" is related to which cards?
solution for the error problem is to modify the GPU overclocking and it works at 100% I have a Radeon RX 6600 XT and I had this error "gpu driver error no temps hiveos"
and it is already working 100%
Hello, having the same error with a 6600xt. Can you please share with me what settings you used to drive this?
My 6600xt is showing the same error, what overclock are you using bro
Is it even working?
any luck? running into the same issue
You fixed it? Having same issue on my 3080 rnow.
I had this problem and I suspect that the person from 5 months ago had the same issue. The hive version is out of date. I updated it and this problem went away for me.
did your problem fixed i am also facing same problem
I have 3 x Zotac 3060ti with hynix memory. Nvidia 470.74 driver. I tried on T-rex/lolminer/nbminer. OC are 1300 clock/ 1400 memory/ 145 pl, 80% fan. I get same error randomly. With older versions it works fine but low hashrate around 30MHs. When I try to use lhr unlock versions of miner I start getting these errors
1600 clock, 2700 memory, 130 watt and 70% or above fan is what I use with Lolminer on hiveos. I get around 45 Mh/s with my 3060 ti LHRs. With hynix you should be doing 1610 clock.
I’m having the same issue. Tried everything mentioned above. Does anyone else have any other suggestions?
I had the same issue as well and could not run my rig more than 25minutes before getting that error. I have 4 x LHR 3060ti’s and 1 x 3080 ti mining ETH on NBMiner. I noticed my Load average going above 5.0 caused this to happened so I turned on Hashrate watchdog and set the “Reboot if LA >=“ value to 25 (the recommended value) and lowered my OC memory settings down on my 3060ti’s. It has been 8hours+ so far and my rig has been running smoothly with no hiccups. Also if you turn HashRate Watchdog on and apply settings I would recommend fully powering off your rig and booting up again as my settings did not actually apply until I did so.
Ошибка GPU temperature 511 is unreal, driver error, как правило возникает из-за проблем с питанием райзеров или видеокарт. Может возникать эпизодически или с нарастающей частотой, обычно на риге “отваливаются” видеокарты, как правило подключенные к одному и тому же блоку питания и ферма перезагружается. Непосредственная причина может быть в обгорающих контактах в разъемах цепей питания, некачественных переходниках питания райзеров, некачественных кабелях и неисправностях в схемотехнике блоков питания.
Совет: USB райзеры 006c с разъемами питания 6 pin и серверные блоки питания, оптимальны для построения ферм с количеством видеокарт от 6-и и выше.
Часто незафиксированный разъем переходника (см. фото) приводит к подгоранию контактов и проводов внутри разъема и появлению ошибки Autofan: GPU temperature 511 is unreal, driver error.
Совет: чем меньше переходников используется в ферме – тем лучше.
Проверяем в таком порядке: ревизируем и заменяем переходники питания и коннекторы >> меняем райзера >> меняем блоки питания. Промеряйте напряжения на всех разъемах, случается вместо 5 вольт или 12 блок питания подает повышенное или пониженное напряжение.
В ряде случаев ошибку можно наблюдать из-за некачественной внешней линии питания или пониженного или повышенного напряжения в ней. Здесь алгоритм действий следующий, проверяем: напряжение в линии питания вольтметром, кабели блоков питания, удлинители, сетевые фильтры и качество проводки. Промеряйте ваттметром энергопотребление фермы, повышенное потребление сигнал о некачественной проводке (может быть скрытый нагрев в стенах и распределительных коробках), неплотных и подгорающих контактах питания в цепи или выходе из строя одного из потребителей.
Иногда оправдано протянуть отдельную линию питания для фермы от щитка со своим автоматом или группой автоматов для каждого рига. Провода и разъемы, после монтажа, не должны нагреваться, используйте клемники и хорошие провода с толстым сечением и обязательно заземляйте блоки питания ферм и другое оборудование.
Совет: отдельная линия питания со своим автоматом на каждый риг и общим автоматом на группу ферм, наилучшее и профессиональное решение.
В случае если ферма работает на нескольких блоках питания, проблема GPU temperature 511 is unreal, driver error, приводит к полной остановке одного из блоков питания. Это сужает круг поиска проблемы, ревизируйте линии питания ведущие к этому блоку, вскройте (если блок не гарантийный) и проверьте сам блок (вздувшиеся и разорванные конденсаторы, поврежденные микросхемы, потемнения текстолита в районе дорожек и прогары) как вариант можно заменить блок питания. Иногда может помочь простая пересборка фермы, когда вы переподключите все коннекторы питания, устранив неплотный контакт в переходниках.
Happy Mining – счастья всем и каждому, поменьше ошибок в сборке ферм и майнинге!
saidjarrah
Пляшущий с бубном
При работе фермы выскакивает:
>Autofan: GPU driver error, no temps
> Claymore Reboot: Temperature control thread hangs, need to restart miner!
далее низкий хэшрейт и ферма виснет.бывает перезагрузится поработает а потом заново такая фигня.
кто сталкивался? помогите решить проблему?
Читайте также: