15 нояб. 2012 г.

Введение нерабочего узла в строй. Часть 2

Теперь надо приступить к разбирательствам по поводу восстановления работоспособности pbs.
Для начала, с помощью команды pbsnodes проверяем работает ли "пятый"

[root@tisnum-head1 ~]# pbsnodes -a node
node

     state = down
     np = 24
     ntype = cluster
     mom_service_port = 15002
     mom_manager_port = 15003
     gpus = 0

Нам вывелось минимум информации. Самая главная строка - это  state = down. Рабочий узел должен выдавать state = free. Можно попробовать изменить это состояние с помощью той же самой команды pbsnodes

pbsnodes -c node

Данная команда означает, что мы узел node переводим в состояние free вне зависимости от того в каком состоянии он до этого находился. После этого опять проверяем, если все заработало и он встал в состояние free, то мы проблему решили, а если опять осталось состояние down, то копаем дальше.


Совершенно случайно я наткнулся на то, что когда я из-под своего пользователя заходил на "пятый" у меня вылазила ошибка:

-bash: /home/user: No such file or directory

Это должно насторожить, потому что нет доступа к домашней директории пользователя на узле. Следовательно, можно сделать предположение, что папка /home не примонтировалась как следует.
Чтобы быть уверенным, что предположение верно, нужно зайти на узел из-под администратора, потому что из-под своего пользователя не получится зайти, и набрать команду

df -h

которая покажет информацию о файловой системе. На рабочем узле показывает следующее:

Filesystem            Size  Used Avail Use% Mounted on
/dev/sda1             458G  1.9G  433G   1% /
tmpfs                  64G     0   64G   0% /dev/shm
tisnum-head1:/share   962G   14G  900G   2% /share
tisnum-head1:/home    9.7T  163G  9.1T   2% /home

на "пятом"

[root@node ~]# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda1             458G  1.9G  433G   1% /
tmpfs                  64G     0   64G   0% /dev/shm

И! Что мы видим? Как раз не хватает разделов /share и /home. И именно эти разделы нам нужны для запуска и работы pbs.
В первую очередь надо проверить файл /etc/fstab, где должны быть прописаны строки для монтирования этих разделов, если их там нет, то надо скопировать этот файл с рабочего узла на нерабочий. Далее пишем команды монтирования данных разделов:

mount server_name:/share /share
mount server_name:/home /home

после чего опять проверяем и видим, что все в порядке

[root@node ~]# df -h

Filesystem            Size  Used Avail Use% Mounted on
/dev/sda1             458G  1.9G  433G   1% /
tmpfs                  64G     0   64G   0% /dev/shm
server_name:/share   962G   14G  900G   2% /share
server_name:/home    9.7T  163G  9.1T   2% /home

Честно говоря, я не знаю произойдет ли это опять после перезагрузки или нет, но хотелось бы верить, что все будет в порядке, а на случай, если нет, то мы знаем как с этим бороться:)

Комментариев нет:

Отправить комментарий