Posted By: vejpuste (Libor Vejpustek) on 'CZunix'
Title: Re: SAN monitoring
Date: Tue Oct 14 10:19:32 2014
> problemu muze bejt mraky. Zacinal bych analyzou logu primo na swistich,
> pokud
> mate Brocade (coz predpokladam) nemel by to byt problem. Pokracoval revizi
> zonovani a lun mapingu. Brocady maji peknou podporu SNMP, ktaze posbiranim
> spravnejch dat a porovnanim je s pruserovym casem by se melo dat zjistit kdo
Switche tu jsou Brocade, ale nemam k nim pristup, takze bych to musel domluvit
se sitarema a musel bych vedet co sledovat.
> na co pristupuje. Dalsi prima tool kterej by ti moh poct je na host strane
> sar -A + ksar kterej kresli pekny grafy a kde je fajn si vsimat hodnot
> awwait
> a awserv (cekani na pozadavek a doba zpracovani). Taky bych si prosel
Pri problemech se v messages objevuji tahovehle hlasky :
kernel: qla2xxx [0000:05:00.0]-801c:1: Abort command issued nexus=1:1:17 -- 1
2002.
v iostat vyskoci %util na 100, nekde naroste svctm a pak v podstate prestanou
diskove operace a util nekterych disku zustane na 100. Ve vetsine pripadu se
psk diskove operace rozbehnou, pokud to trva dyl nez minutu, tak server
vetsinou sestreli clusterware, ktery se stara o ocfs2 sdilene uloziste.
> konfiguraci jednotlivych raidu na poli a logickych disku. TReba na midrange
> od IBM je to delano tak ze mas jeden raid a nd nim tvoris konkretni luny
> ktere pak mapujes na dalsi hosty. Pokud ti jeden raid vyuziva vice hostu tak
> pak je na problem zadelano. Dalsi hint - zkontrolovat na poli preferovane
> cesty - muze bejt pretizenej kontroler. BTW jake tam mate pole ? Pokud
> nevykoumate kde by ten problem moh bejt zacal bych s patchovanim....
> Objevuje
> se problem pouze na jednom hostu nebo na vice hostech ?
Projevuje se to na vice serverech a diskove pole mame 2xHP EVA 4400, nekolik
starsich HP MSA a pak SW pole s SSD disky.
Vetsina LUNu je samozrejme sdilena pro vice serveru.
Libor Vejpustek
Ceska zemedelska univerzita Praha
http://web.czu.cz/~vejpuste/ E-mail : vejpuste@uvt.czu.cz