Процесс диагностики неисправности локальных сетей.
Прежде чем приступить к описанию методики выявления «скрытых дефектов», мы хотели бы определиться с терминами: что, собственно, понимается под локальной сетью, диагностикой локальной сети и какую сеть следует считать «хорошей».
Очень часто под диагностикой локальной сети подразумевают тестирование только ее кабельной системы. Это не совсем верно. Кабельная система является одной из важнейших составляющих локальной сети, но далеко не единственной и не самой сложной с точки зрения диагностики. Помимо состояния кабельной системы на качество работы сети значительное влияние оказывает состояние активного оборудования (сетевых плат, концентраторов, коммутаторов), качество оборудования сервера и настройки сетевой операционной системы. Кроме того, функционирование сети существенно зависит от алгоритмов работы эксплуатируемого в ней прикладного программного обеспечения.
Под термином «локальная сеть» мы будем понимать весь комплекс указанных выше аппаратных и программных средств; а под термином «диагностика локальной сети» — процесс определения причин неудовлетворительной работы прикладного ПО в сети. Именно качество работы прикладного ПО в сети оказывается определяющим, с точки зрения пользователей. Все прочие критерии, такие как число ошибок передачи данных, степень загруженности сетевых ресурсов, производительность оборудования и т. п., являются вторичными. «Хорошая сеть» — это такая сеть, пользователи которой не замечают, как она работает.
Основных причин неудовлетворительной работы прикладного ПО в сети может быть несколько: повреждения кабельной системы, дефекты активного оборудования, перегруженность сетевых ресурсов (канала связи и сервера), ошибки самого прикладного ПО. Часто одни дефекты сети маскируют другие. Таким образом, чтобы достоверно определить, в чем причина неудовлетворительной работы прикладного ПО, локальную сеть требуется подвергнуть комплексной диагностике. Комплексная диагностика предполагает выполнение следующих работ (этапов).
- Выявление дефектов физического уровня сети: кабельной системы, системы электропитания активного оборудования; наличия шума от внешних источников.
- Измерение текущей загруженности канала связи сети и определение влияния величины загрузки канала связи на время реакции прикладного ПО.
- Измерение числа коллизий в сети и выяснение причин их возникновения.
- Измерение числа ошибок передачи данных на уровне канала связи и выяснение причин их возникновения.
- Выявление дефектов архитектуры сети.
- Измерение текущей загруженности сервера и определение влияния степени его загрузки на время реакции прикладного ПО.
- Выявление дефектов прикладного ПО, следствием которых является неэффективное использование пропускной способности сервера и сети.
Как провести диагностику (ЛВС) локальной вычислительной сети?
Используем Cisco Catalyst 6513 уже более 5 лет, с ним проблем таких не возникало, ниже листинг show version и далее описание ситуации.
Catalyst-6513#sh ver Cisco Internetwork Operating System Software IOS (tm) c6sup2_rp Software (c6sup2_rp-PSV-M), Version 12.1(26)E6, RELEASE SOFTW ARE (fc1) Technical Support: http://www.cisco.com/techsupport Copyright (c) 1986-2006 by cisco Systems, Inc. Compiled Mon 23-Jan-06 10:13 by hqluong Image text-base: 0x40008F90, data-base: 0x41854000 ROM: System Bootstrap, Version 12.1(11r)E1, RELEASE SOFTWARE (fc1) BOOTLDR: c6sup2_rp Software (c6sup2_rp-PSV-M), Version 12.1(26)E6, RELEASE SOFTW ARE (fc1) Catalyst-6513 uptime is 5 days, 22 hours, 23 minutes Time since Catalyst-6513 switched to active is 5 days, 22 hours, 22 minutes System returned to ROM by power-on (SP by power-on) System image file is "sup-bootflash:c6sup22-psv-mz.121-26.E6.bin" cisco WS-C6513 (R7000) processor (revision 1.0) with 112640K/18432K bytes of mem ory. Processor board ID SAL0802SHTV R7000 CPU at 300Mhz, Implementation 39, Rev 3.3, 256KB L2, 1024KB L3 Cache Last reset from power-on X.25 software, Version 3.0.0. Bridging software. 9 Virtual Ethernet/IEEE 802.3 interface(s) 338 Gigabit Ethernet/IEEE 802.3 interface(s) 381K bytes of non-volatile configuration memory. 32768K bytes of Flash internal SIMM (Sector size 512K). Configuration register is 0x2102
Уже как вторую неделю наблюдаем следующую картину:
Увеличивается нагрузка на CPU вплоть до 80%, сеть начинает жутко лагать, пинг до принтеров увеличивается до 300 мс., недоступны сетевые сервисы компании (принт сервер, 1С, падает IP-телефония (Cisco UCM), сеть на компах). В нормальном же режиме нагрузка на CPU не достигает и 5%, температура компонентов коммутатора не подымается выше 28 градусов цельсия.
Самое странное во всём этом что началось это после того как компания закупила моноблоки HP ProOne 600. Первая возникшая проблема: не запускались приложения через сеть, включения-отключения UAC ни к чему не привели. Помогало только копирование дистрибутивов на ПК и последующая установка (причину так и не выявили).
Когда нагрузка выросла мы выявили что был виноват один из этих моноблоков, перезагрузили ПК, сменили патч-корд и порт на cisco (чтобы уж наверняка).
Через сутки ситуация повторилась, но уже с другим пользователем — однако имеющим в распоряжении такой же моноблок. С одной стороны — они работают у нас уже 3 месяца, с другой стороны — источником проблемы в обоих случаях были они, и их последующая перезагрузка и смена порта на коммутаторе сбросила нагрузку с 80% до 2% в течении 10 мин после проделанных манипуляций.
Проблема в том, что я не могу выявить виноватого в этой ситуации, не знаю куда еще копать.
Гугление про диагностику сетей дало ссылки на скопипащенные статьи, где в качестве исследования использовали Win 95.