15 нояб. 2012 г.

Введение нерабочего узла в строй. Часть 1

Сначала опишу, что случилось с узлом и почему мне его пришлось вводить в строй.
На днях я заметил, что один из вычислительных узлов, назовем его "пятый", перестал пинговаться и стал невидим для планировщика Torque. Вместо привычного стояния узла

node: pbs,sshd

я наблюдал

node: noping

Это меня напрягало, потому что, я считаю, что сделано для того, чтобы работать - должно работать. Естественно, моя заявка в техподдержку компании Т-платформы была сделана, но ответ так и не последовал.
Теперь к главному, в чем была причина и как я ее устранил.



Причина отсутствия пинга состояла в том, что сетевые настройки на узле "пятый" были сбиты поле перезагрузки, почему это произошло и будет ли такое происходить в будущем - не знаю, с этим еще предстоит разобраться. Проверив ifconfig я обнаружил, что IP адрес на устройстве eth0 отсутствует. Т.к. эти узлы подключены к серверу через DHCP, то адреса устанавливались сервером, и в конфигурационном файле сети (ifcfg-eth0) прописывать IP не нужно было. Этот файл был в порядке. Перезагрузка сети не дала результатов. В ответ я получал ошибку:


[root@node05-ib0 ~]# service network restart
Shutting down interface eth0:                              [  OK  ]
Shutting down interface ib0:                               [  OK  ]
Shutting down loopback interface:                          [  OK  ]
Bringing up loopback interface:                            [  OK  ]
Bringing up interface eth0:
Determining IP information for eth0...
                                                           [  FAILED  ]
...

Может быть это покажется кому-нибудь тривиальной задачей, но мне, как человеку, самому изучающему суперкомпьютерное администрирование это казалось не простой задачей.
Нужно:
1) Перезапустить dhcpd службу на сервере
2) Перезапустить службу network на узле, и все будет хорошо.
Первая часть проблемы решилась. Теперь статус узла стал

node: sshd

Осталось разобраться с pbs

Комментариев нет:

Отправить комментарий