В связи с нестабильной работой сервера в течение последних двух недель было
принято решение временно запустить на сервере ядро без поддержки
highmem64. На практике это означает, что системе доступно всего около 3
гигабайт памяти (вместо 6).
Я планирую повторить попытку работы с highmem64 после выхода новых версий
ядра, а при появлении проблем с производительстью - возможно и раньше.
Время с 8:30 до 9:00 утра во все рабочие дни объявляется служебным.
В это время БЕЗ ПРЕДУПРЕЖДЕНИЯ могут быть осуществлены "деструктивные"
действия, такие как:
- перезагрузка сервера
- уничтожение запущенных пользовательских сеансов
- обновление или переконфигурирование софта, которые могут привести к
уничтожению запущенных сеансов или их нестабильности до момента
перезапуска.
В другое время "деструктивные" действия производиться не будут. Исключение
составляет ситуация возникновения фатальной проблемы, неустранимой без
"деструктивных" действий. Следующие проблемы считаются фатальными:
- невозможность работы терминалов
- невозможность работы почтовой службы;
- любая проблема, немедленное устранение которой необходимо в интересах
производственных проектов (при этом если откладывание "деструктивных"
действий до "служебного" времени приводит лишь к неудобствам, придётся
потерпеть).
- появление информации о критической проблеме безопасности, уровень
опасности которой не позволяет подождать с исправлением до следующего
утра.
Такие проблемы как неработа записи CD/DVD или монтирования USB устройств
фатальными не считаются.
------------------------------------------
Детали для интересующихся.
------------------------------------------
Всего за последние 2 недели было зафиксированно 5 сбоев, из которых 4
привели к необходимости перезагрузки.
Из этих сбоев один был в подсистеме USB, один в подсистеме IDE, природа
остальных трёх неясна и вполне может быть связана с highmem64.
Все сбои носили чисто программный характер, претензий к работе аппаратуры
нет.
К сожалению, так вышло что включение highmem64 - не единственное отличие
ядра, на котором мы пытались работать прошлые 2 недели, от
дистрибутивного. Там ещё были включены несколько опций: опримизация под
P4/Xeon, размещение таблиц страниц в highmem, поддержка балансировки
прерываний по процессорам. Возможно, к нестабильности привело что-то из
них.
У меня сейчас нет времени и сил проводить аккуратный анализ сбоев - это
очень трудоёмко. Хотя я считаю, что это делать надо обязательно (ибо
стабильность Linux должна обеспечиваться именно силами квалифицированных
пользователей - такова природа Linux как явления) и постараюсь в фоне этим
заниматься, в качестве первичного механизма обеспечения стабильности пока
придётся - как мне ни противно эти признавать - использовать метод тыка.
Посмотрим как будет работать то что запущено сейчас.
Если ядро будет стабильно и производительность будет приемлемой, то я
подожду с экспериментами до выхода новой версии ядра (точнее, до
появления .deb для новой версии), причём, в зависимости от текущей
ситуации с нашими проектами, может даже не ближайшей, а через 2-3. Судя по
количеству вносимых туда изменений, шанс что ошибки, из-за которых у нас
неприятности, исправлены - велик.
Если торможение будет ощутимо мешать, я попробую запустить ядро текущей
версии, отличающееся от дистрибутивного ТОЛЬКО наличием highmem64. Я его в
любом случае соберу, чтобы оно было наготове.
Если будут сбои, то проведу минимальный анализ ситуации и постараюсь либо
оперативно устранить ошибку, либо принять меры для уменьшения вероятности
ситуации, когда она проявляется. Возможно путём введения ограничений на
использование сервера.