Категорически приветствую!
Есть кластер состоящий из 2 серверов с ubuntu 20 (Pacemaker 2.0.3, corosync 3.0.3) + qdevice, но это вобщем-то не важно. Хочу создать ресурс systemd, на обоих нодах создаю юнит dummy.service
[Unit]
Description=Dummy
[Service]
Restart=on-failure
StartLimitInterval=20
StartLimitBurst=5
TimeoutStartSec=0
RestartSec=5
Environment="HOME=/root"
SyslogIdentifier=dummy
ExecStart=/usr/local/sbin/dummy.sh
[Install]
WantedBy=multi-user.target
сам /usr/local/sbin/dummy.sh
:
#!/bin/bash
CNT=0
while true; do
let CNT++
echo "hello world $CNT"
sleep 5
done
Пытаемся объявить ресурсpcs resource create dummy.service systemd:dummy op monitor interval="10s" timeout="15s"
И спустя пару секунд одна нода убивает вторую и она уходит в ребут. Почему так происходит? Судя по логам, он буквально чем за секунду пытается запустить 2 раза сервис, решает что он «Timed Out», при этом сервис работает, так как он успевает написать в лог «hello world 1», после чего отстреливает ноду.
Собсно вопрос всё тот же: что я делаю не так?
( читать дальше... )