четверг, 25 ноября 2010 г.

Не IOPS-ами едиными

Странные вещи иногда происходят:

Внезапно перебежал кластер CCR MailBox Exchange 2007 с одной ноды на другую, поначалу было подумал что причина в изменении конфигурации на одной из SAN фабрик, -я фабрика SAN коммутаторов при этом не менялась и была доступна, так как софт обеспечивающий multipath-инг в SAN показывал 4 пути до диска.

По быстрому зайдя на диски презентованные с СХД (системы хранения данных) на обоих нодах попытался их открыть и на той ноде с которой пошло убегание - задержка была очень большой, видимо какое то влияние при перестроении одной фабрики было...
Предположительно что это не корректно отработал EMC PowerPath версии 5.3 build 311

Усомнило:
Далее посмотрев логи на ставшей пассивной ноде обнаружил, что отваливались обе сети:
Event Type: Warning
Event Source: ClusSvc
Event Category: Node Mgr
Event ID: 1123
The node lost communication with cluster node 'MBS-01' on network '_LAN-TEAM'.

и

The node lost communication with cluster node 'MBS-01' on network 'Interconnect-Cabel1'.

а дальше понятно:
Cluster service was terminated as requested by Node 2.

это потому что был доступен кластерный File Whitness Share

Да и позже вспомнил, что недавно устанавливал на все Exchange 2007 сервера Update Rollup 1 for Exchange Server 2007 Service Pack 3, который как раз не был установлен на узел с которого кластер сбежал...

Есть поле для размышления...

Позднее стала ясна причина всего этого оказалась что SPA и SPB - сторадж процессоры системы CLARiiON CX4-120 перестали справляться с нагрузкой, поданной на них, это стало очевидно после нарезки луна для одного из серверов и начала переноса на него данных объемом половина терабайта. При этом PowerPath показывал большую очередь к диску и текущие IO порядка 20-50 - переброс с одного процессора на другой (Trespass...) не дал результата, реальная скорость копирования достигала порядка 10 мегабайт в секунду - с диска на диск внутри сервера - с разных систем хранения. Вспомнил, что у было настроено 14 синхронных зеркалирований между системами хранения, 6 из которых были временными. Временные зеркалирования отключил, на системах, нагрузка по вводу/выводу на PowerPath Monitor сразу подскочила до 800-1300 операций в секунду (диск был на RAID5 и состоял из 8 SATA-дисков):



Скорость была более 15Гб в минуту

Также, на всякий случай, поотключал кэши чтения и записи на некритичных лунах СХД.

Комментариев нет:

Отправить комментарий