18 февраля (впятницу) в 18:45 сервер zigzag был перезагружен с целью исправления ошибки в ядре, приводившей к периодическим скачкам load-а и последующей низкой отзывчивости сервера в течение нескольких минут.
Описание проблемы в LKML: http://seclists.org/lists/linux-kernel/2005/Feb/0726.html и последующие ответы. Хотя первичное описание проблемы там не вполне соответствует нашему, ключевой признак, видимый через SysRq (недостаточно свободного пространства в зоне DMA), совпал.
Исправление, которое я включил в ядро: http://linux.bkbits.net:8080/linux-2.6/cset%401.1998.1.83
Перед перезагрузкой uptime сервера был более 22 суток.