dell サーバーのSCSI sense data: Sense key~エラーについて

dellのサーバーで使えるopen manageをOSにインストールしているとHWの情報もログに乗せてくれます。
そのサーバーで↓の様なメッセージがmessegesに出ていました。
HW障害の前兆です。

Aug 10 11:02:22 ebm-sys-01 Server_Administrator: 15033 2095 – Storage Service Unexpected sense. SCSI sense data: Sense key: B Sense code: 4B Sense qualifier: 4: Physical Disk 0:1:11 Controller 0, Connector 0
Aug 10 13:02:32 ebm-sys-01 Server_Administrator: 15033 2095 – Storage Service Unexpected sense. SCSI sense data: Sense key: B Sense code: 4B Sense qualifier: 4: Physical Disk 0:1:12 Controller 0, Connector 0

このエラーメッセージは、raid controller等の障害が起因して出るようです。
このまま放置したらHW側でdiskが見えなくなってI/O errorで死ぬ可能性があるので早急に対処が必要ぽい
保守に入っていればdellに電話、入ってないのならHWを何とかする必要がありますw

CentOSにDELL OpenManageをインストールした。

DELLのサーバーにDELL謹製のハードウェア管理ツール「OpenManage」を入れた。

yum install でインストールできるので
まずは、DELLのサイトからyumのリポジトリをサーバーにダウンロード

# wget -q -O – http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash

リポジトリが有るのを確認

# ls /etc/yum.repos.d/dell-omsa-repository.repo
/etc/yum.repos.d/dell-omsa-repository.repo

「OpenManage」をインストール「all」を指定すると全機能が入ります。
機能別にも入れれますが、全部入れちゃいます。

# yum -y install srvadmin-all

「OpenManage」を起動します。

# /opt/dell/srvadmin/sbin/srvadmin-services.sh start
Starting Systems Management Device Drivers:
Starting dell_rbu: [ OK ]
Starting ipmi driver: [ OK ]
Starting Systems Management Data Engine:
Starting dsm_sa_datamgrd: [ OK ]
Starting dsm_sa_eventmgrd: [ OK ]
Starting dsm_sa_snmpd: [ OK ]
Starting DSM SA Shared Services: [ OK ]
Starting DSM SA Connection Service: [ OK ]

「OpenManage」の自動起動の設定をします。

# /opt/dell/srvadmin/sbin/srvadmin-services.sh enable
racsvc 0:off 1:off 2:on 3:on 4:on 5:on 6:off
instsvcdrv 0:on 1:off 2:off 3:on 4:off 5:on 6:on
dataeng 0:off 1:off 2:off 3:on 4:off 5:on 6:off
dsm_om_shrsvc 0:off 1:off 2:off 3:on 4:off 5:on 6:off
dsm_om_connsvc 0:off 1:off 2:off 3:on 4:off 5:on 6:off

これで、準備は完了
同じコンソールだと「OpenManage」のコマンドが使えないので別コンソール・再ログインを行いテスト

# omreport chassis
Health

Main System Chassis

SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Ok : Memory
Critical : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Ok : Hardware Log
Ok : Batteries

「Critical : Power Supplies」と出ているのは、電源を一個からしか取ってないからです。
正しく取れているようです。

他にも様々なステータスが取れるのでヘルプを参照するといいでしょう。

ちなみに自分がちなみに良く使うのは
ディスクのステータスをみるコマンド

omreport storage pdisk controller=0 | less

って感じですね。
しかし、DELLのサーバーは、IPMIがまともに使えないなぜなのか・・。