И это всё МОЁ

Доброго времени суток. Я нахожусь в некотором шоке и пожалуй начну историю из долека. Не знаю как у других но у меня вчера был очень насыщенный день.


Закралась мне идея в офисе вынести жесткие диски юзеров на сервер в ISCSI.


Я взял сервер Xeon E3-1240v2 старенький из бездействующих серверов, туда воткнул 4 диска WD30EFRX, 8GB RAM, обе сетевухи в bond0.
Поставил Debian 10, программный mdraid RAID5 из 3-х дисков, этот рейд в lukscrypt на шифрованном разделе ext4.
(вообще я хотел поизучать LVM2 но пока просто на ext4)
Далее у меня tgtd раздает таргеты по 100гб через backing-store.
Еще у меня там TFTP сервер c IPXE, маленький скрипт на PHP под Nginx.


Вообщем включается клиент, загружается с PXE (MBR).
Mikrotik раздает DHCP указывает на сервер PXE, там менюшка, далее скармливается IPXE загрузчик который тягает скрипт с веб сервера, скрипт указываем ISCSI target диск и с него грузится Win7\Win10.


Там помимо Юзеров(1 юзер реально боевой) на этом сервере еще кружится диск от Hyper-V и пара виртуалок.
Все это было в таком продакшн тесте, производительность ISCSI через гигабитную локалку давольно не плохая.


Вообщем Все работало…. Пару месяцев..


Сегодня с утра мне сообщают что не работает часть сервисов в этом офисе не доступна, как оказалось здох блок питания в Mikrotik, пока туда сюда пока заменил два кондера пока все поднялось. Все поднялось кроме этого боевого компа юзера.


Тут маленький момент, юзер пришел и пробовал включить комп уже после того как упал маршрутизатор и сломался PXE.


Вообщем юзер включает компьютер, с PXE+ISCSI грузится Win7 проходит половину загрузки и перезагружается и так в цикле.
Решаю перезагрузить сервер, малоли что маршрутизатор не работал несколько часов, а там бондинг итд, при этом какбы сервер доступен работает нормально ушел в перезагрузку, нормально вернулся. Подципил lukscrypt диск перезапустил tgt, он отдельно цепляет конфиги с рейда.
Проблема таже самая, грузится 7-ка до половины и перезагружается, причем долго тупит.


Отключаю правила ACL на TGTd и 7-ка начинает загружаться, но имеет совершенно не те данные в образе!!!
Тобиш корректно загрузилась какаято промежуточная версия особо не настроенной Win7.
Никаких ошибок не по рейду ни в логах, как будто с добрым утром все четко.


Я сижу и не могу понять а куда собственно делать полностью настроенная и стабильно работающая несколько месяцев система.
Сервер не перезагружался какоето время, возможно все эти два месяца.


У меня 2 теории о сложившейся ситуации.



  1. Во время тестирования я чтото напутал, скормил в конфиг промежуточный образ а реальный образ например удалил и пока служба работала все было в порядке, предпологаю был открыт дискриптор удаленного файл.

  2. Tgt совершил какойто невероятный финт ушами с кэшами или кудато в неизвестном мне направлении сохранял данные не трогая оригинальный образ и при перезагрузке благополучно все забыл. Темнеменее я облазил весь сервер через du -sh ./* и не нашел каких либо крупных файлов имеющих отношение к проблеме.


Я пробовал запускать undelete и debugfs но совершенно не обнаружил удаленных массивов данных. Также я по самому проблемному образу проходился R-Studio и даже намека на файлы пользователя не обнаружил.


Я подозреваю что в самой ext4 должны сохраняться какието данные, и мне бы хотелось их както выудить, но к сожалению мне даже дамп на 6тб некуда сохранить.


Пользователь уже смирился, но меня както карежит, я планирую переводить на подобную систему весь офис и както не очень хотелосьбы в одно прекрасное утро утратить в неизвестном направлении вообще все.
Какие есть варианты?


p.s Hyper-V и Виртуалки поднялись нормально с тогоже tgt.









 , , ,