Сначала опишу, что случилось с узлом и почему мне его пришлось вводить в строй.
На днях я заметил, что один из вычислительных узлов, назовем его "пятый", перестал пинговаться и стал невидим для планировщика Torque. Вместо привычного стояния узла
node: pbs,sshd
я наблюдал
node: noping
Это меня напрягало, потому что, я считаю, что сделано для того, чтобы работать - должно работать. Естественно, моя заявка в техподдержку компании Т-платформы была сделана, но ответ так и не последовал.
Теперь к главному, в чем была причина и как я ее устранил.
Причина отсутствия пинга состояла в том, что сетевые настройки на узле "пятый" были сбиты поле перезагрузки, почему это произошло и будет ли такое происходить в будущем - не знаю, с этим еще предстоит разобраться. Проверив ifconfig я обнаружил, что IP адрес на устройстве eth0 отсутствует. Т.к. эти узлы подключены к серверу через DHCP, то адреса устанавливались сервером, и в конфигурационном файле сети (ifcfg-eth0) прописывать IP не нужно было. Этот файл был в порядке. Перезагрузка сети не дала результатов. В ответ я получал ошибку:
[root@node05-ib0 ~]# service network restart
Shutting down interface eth0: [ OK ]
Shutting down interface ib0: [ OK ]
Shutting down loopback interface: [ OK ]
Bringing up loopback interface: [ OK ]
Bringing up interface eth0:
Determining IP information for eth0...
[ FAILED ]
...
Может быть это покажется кому-нибудь тривиальной задачей, но мне, как человеку, самому изучающему суперкомпьютерное администрирование это казалось не простой задачей.
Нужно:
1) Перезапустить dhcpd службу на сервере
2) Перезапустить службу network на узле, и все будет хорошо.
Первая часть проблемы решилась. Теперь статус узла стал
node: sshd
На днях я заметил, что один из вычислительных узлов, назовем его "пятый", перестал пинговаться и стал невидим для планировщика Torque. Вместо привычного стояния узла
node: pbs,sshd
я наблюдал
node: noping
Это меня напрягало, потому что, я считаю, что сделано для того, чтобы работать - должно работать. Естественно, моя заявка в техподдержку компании Т-платформы была сделана, но ответ так и не последовал.
Теперь к главному, в чем была причина и как я ее устранил.
Причина отсутствия пинга состояла в том, что сетевые настройки на узле "пятый" были сбиты поле перезагрузки, почему это произошло и будет ли такое происходить в будущем - не знаю, с этим еще предстоит разобраться. Проверив ifconfig я обнаружил, что IP адрес на устройстве eth0 отсутствует. Т.к. эти узлы подключены к серверу через DHCP, то адреса устанавливались сервером, и в конфигурационном файле сети (ifcfg-eth0) прописывать IP не нужно было. Этот файл был в порядке. Перезагрузка сети не дала результатов. В ответ я получал ошибку:
[root@node05-ib0 ~]# service network restart
Shutting down interface eth0: [ OK ]
Shutting down interface ib0: [ OK ]
Shutting down loopback interface: [ OK ]
Bringing up loopback interface: [ OK ]
Bringing up interface eth0:
Determining IP information for eth0...
[ FAILED ]
...
Может быть это покажется кому-нибудь тривиальной задачей, но мне, как человеку, самому изучающему суперкомпьютерное администрирование это казалось не простой задачей.
Нужно:
1) Перезапустить dhcpd службу на сервере
2) Перезапустить службу network на узле, и все будет хорошо.
Первая часть проблемы решилась. Теперь статус узла стал
node: sshd
Осталось разобраться с pbs.
Комментариев нет:
Отправить комментарий