Теперь надо приступить к разбирательствам по поводу восстановления работоспособности pbs.
Для начала, с помощью команды pbsnodes проверяем работает ли "пятый"
[root@tisnum-head1 ~]# pbsnodes -a node
node
state = down
np = 24
ntype = cluster
mom_service_port = 15002
mom_manager_port = 15003
gpus = 0
Нам вывелось минимум информации. Самая главная строка - это state = down. Рабочий узел должен выдавать state = free. Можно попробовать изменить это состояние с помощью той же самой команды pbsnodes
pbsnodes -c node
Данная команда означает, что мы узел node переводим в состояние free вне зависимости от того в каком состоянии он до этого находился. После этого опять проверяем, если все заработало и он встал в состояние free, то мы проблему решили, а если опять осталось состояние down, то копаем дальше.
Совершенно случайно я наткнулся на то, что когда я из-под своего пользователя заходил на "пятый" у меня вылазила ошибка:
-bash: /home/user: No such file or directory
Это должно насторожить, потому что нет доступа к домашней директории пользователя на узле. Следовательно, можно сделать предположение, что папка /home не примонтировалась как следует.
Чтобы быть уверенным, что предположение верно, нужно зайти на узел из-под администратора, потому что из-под своего пользователя не получится зайти, и набрать команду
df -h
которая покажет информацию о файловой системе. На рабочем узле показывает следующее:
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 458G 1.9G 433G 1% /
tmpfs 64G 0 64G 0% /dev/shm
tisnum-head1:/share 962G 14G 900G 2% /share
tisnum-head1:/home 9.7T 163G 9.1T 2% /home
на "пятом"
[root@node ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 458G 1.9G 433G 1% /
tmpfs 64G 0 64G 0% /dev/shm
И! Что мы видим? Как раз не хватает разделов /share и /home. И именно эти разделы нам нужны для запуска и работы pbs.
В первую очередь надо проверить файл /etc/fstab, где должны быть прописаны строки для монтирования этих разделов, если их там нет, то надо скопировать этот файл с рабочего узла на нерабочий. Далее пишем команды монтирования данных разделов:
mount server_name:/share /share
Для начала, с помощью команды pbsnodes проверяем работает ли "пятый"
[root@tisnum-head1 ~]# pbsnodes -a node
node
state = down
np = 24
ntype = cluster
mom_service_port = 15002
mom_manager_port = 15003
gpus = 0
pbsnodes -c node
Данная команда означает, что мы узел node переводим в состояние free вне зависимости от того в каком состоянии он до этого находился. После этого опять проверяем, если все заработало и он встал в состояние free, то мы проблему решили, а если опять осталось состояние down, то копаем дальше.
Совершенно случайно я наткнулся на то, что когда я из-под своего пользователя заходил на "пятый" у меня вылазила ошибка:
-bash: /home/user: No such file or directory
Это должно насторожить, потому что нет доступа к домашней директории пользователя на узле. Следовательно, можно сделать предположение, что папка /home не примонтировалась как следует.
Чтобы быть уверенным, что предположение верно, нужно зайти на узел из-под администратора, потому что из-под своего пользователя не получится зайти, и набрать команду
df -h
которая покажет информацию о файловой системе. На рабочем узле показывает следующее:
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 458G 1.9G 433G 1% /
tmpfs 64G 0 64G 0% /dev/shm
tisnum-head1:/share 962G 14G 900G 2% /share
tisnum-head1:/home 9.7T 163G 9.1T 2% /home
на "пятом"
[root@node ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 458G 1.9G 433G 1% /
tmpfs 64G 0 64G 0% /dev/shm
И! Что мы видим? Как раз не хватает разделов /share и /home. И именно эти разделы нам нужны для запуска и работы pbs.
В первую очередь надо проверить файл /etc/fstab, где должны быть прописаны строки для монтирования этих разделов, если их там нет, то надо скопировать этот файл с рабочего узла на нерабочий. Далее пишем команды монтирования данных разделов:
mount server_name:/share /share
mount server_name:/home /home
после чего опять проверяем и видим, что все в порядке
[root@node ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 458G 1.9G 433G 1% /
tmpfs 64G 0 64G 0% /dev/shm
server_name:/share 962G 14G 900G 2% /share
server_name:/home 9.7T 163G 9.1T 2% /home
Честно говоря, я не знаю произойдет ли это опять после перезагрузки или нет, но хотелось бы верить, что все будет в порядке, а на случай, если нет, то мы знаем как с этим бороться:)
Комментариев нет:
Отправить комментарий