Коллеги,
В сети ЛВК произошел сбой в связи с чем работоспособность сервисов сильно ограничена.
В субботу 25 января проводились плановые работы по обновлению ПО на серверах виртуализации. В процессе обновления все виртуальные машины были переведены на сервер vedi, который в последнее время практически не использовался.
На момент утра 26 января была сделана полная копия ФС с домашними каталогами пользователей и их почтой.
Утром 27 января на рабочей ФС с данными пользователей произошел сбой с нарушением консистентности данный. ФС была восстановлена при помощи fsck. Так как была достаточно обоснованная гипотеза, что сбой произошел из-за программных проблем, было обновлено ПО на виртуальной машине, обслуживающей данные пользователей и работа была продолжена.
28 января одновременно были обнаружены нарушения в работе уже нескольких виртуальных машин в том числе с разрушением ФС.
Наиболее вероятной причиной сбоя является аппаратная неисправность сервера vedi (вероятно битая память, с которой не справился ECC).
К сожалению, так как в тот момент на vedi работала большая часть виртуальных машин, сбой затронул значительную часть инфраструктуры.
Сейчас ведутся работы по восстановлению работы сети. На данный момент еще _не_ восстановлены desktopvm, NFS, samba, vpn, web и проектные виртуальные машины.
Домашние каталоги пользователей и почтовые ящики восстановлены по состоянию на утро воскресенья 26 января. Файлы, созданные в интервал с 26го по 28е можно будет восстановить по явному запросу в течении недели. Если получится, то письма за этот период я восстановлю для всех пользователей автоматически.
Работа всех оставшихся служб будет восстановлена в ближайшие дни.
Tue, 28 Jan 2014 20:26:14 +0400 Alexander GQ Gerasiov gq@cs.msu.su wrote:
Коллеги,
В сети ЛВК произошел сбой в связи с чем работоспособность сервисов сильно ограничена.
[...]
Работа всех оставшихся служб будет восстановлена в ближайшие дни.
Как оказалось, проблема была вовсе не с памятью на сервере виртуализации, а с подключением к системе хранения данных. С некоторой периодичностью происходила крайне неприятная ситуация, когда сервер писал данные на СХД, СХД сообщала, что данные записаны, после чего по неизвестной пока причине обрывался оптический линк с СХД и данные терялись.
В качестве временной меры было принято решение отказаться от использования СХД до того момента как проблема будет окончательно исследована и устранена.
В настоящее время работа сервисов сети ЛВК частично восстановлена, основные службы работают, проводится дальнейшее восстановление.
В связи с продолжением работ в течении ближайшей недели возможно кратковременное отключение и перезагрузка серверов и виртуальных машин.
Tue, 28 Jan 2014 20:26:14 +0400 Alexander GQ Gerasiov gq@cs.msu.su wrote:
Домашние каталоги пользователей и почтовые ящики восстановлены по состоянию на утро воскресенья 26 января. Файлы, созданные в интервал с 26го по 28е можно будет восстановить по явному запросу в течении недели. Если получится, то письма за этот период я восстановлю для всех пользователей автоматически.
Дмитрий напомнил мне, что письма так и не были восстановлены, так что я это таки сделал. Не удивляйтесь внезапно пришедшим письмам за интервал 26-28 января.