久々にDELLにやられた・・・サポートはやっぱり・・・

エラー先週、会社のサーバーのディスクにエラーが発生し対応に追われております。
ディスクは障害に備えてRAID5(3本)+ホットスペア(1本)で稼働していましたが、予兆がないまま、HDD1本がオレンジ点灯(故障?)して応答がなくなり起動しなくなりました。
DELLのサポートとやり取りして、問題のHDD1本とホットスペア1本を切り離して起動することができました。

無事に起動したので、大ごとにならないうちにレイドを正常に戻しましょう。
ところが、ホットスペアを接続してリビルドかけたのですが、エラーになってリビルドが終わってしまいます。
サーバーのログをDELLに送って解析してもらったところ、なんとすべてのHDDで不良セクタが出ているとのこと。
不良セクタができてしまったHDDがレイドを組んでいることから、他のHDDに不良セクタが伝播するんだそうな。

■ハードディスク上の不良セクタ発生に伴うRAIDボリュームへの影響と一般的な対処について
http://www.dell.com/support/article/jp/ja/jpbsd1/SLN263054_ja/ja?c=jp&s=bsd&cs=jpbsd1&l=ja

かなり納得のいかない回答です。
レイドを組んでいても何のエラーもなしにいきなりHDDが使えなくなるとは!!
DELLのエンジニアとかなりやりとりしたのですが、結局、HDDすべてを交換して構成しなおして再セットアップということになりました。
エンジニア派遣でHDD交換し、レイドコントローラとHDDのファームウエアを最新にしてもらうことにしました。
わたしのほうは、サーバーが落ちてしまわないうちに重要なデータを外付けのHDDにコピー。

そして今週火曜日に、エンジニアがやってきて交換作業。
ところがレイドコントローラのファームウエアは最新にしたものの、HDDのファームウエアは持参していないという事態が発生。
なぜか私が準備していると聞いているというチンプンカンプンなお話。
もちろんそんなことは聞いていないので自分らで何とかしろと要求です。
そしたらあとからあとから訳の分からんことを言ってきます。

DELLからも電話がかかってきて、外付けのDVDドライブ貸せと言ったり、USBメモリ貸せと言ったり・・・。
挙句の果てにはいったん引き上げて後日の対応になるとか言ったり・・・。

こちらには落ち度がないので今日中に何とかしろと突き放しました。

結局、朝一から作業はじめて終了したのが午後5時前。なんと時間を無駄にしたことか・・・。

続いて再セットアップです。
あらかじめWEBで調べておいたのでここはすんなり完了。
ただ、最新のドライバとファームウエアのありかがよくわからなかったのでサポートにメールで回答するように伝えておりました。

水曜日。
セットアップ完了したのでドメインへの参加。
そしてネットワークのチーミング作業へ。※チーミングとはLANの2重化でLANケーブルをサーバーに2本つないで耐障害性の強化を行うものです。
あらかじめサポートから聞いていたドライバをダウンロードしてセットアップ。
正常に動作しているのを確認して、チーミングの設定を行います。ところが何度試してもウィザードの最後でエラーが発生します。・・・またかよ。

イライラしながらサポートへ電話。
そしたらまださらにバージョンの新しいドライバがあるのでそちらを試してほしいと、メールにてURLが届きました。電話してから2時間後・・・。
メールにはBroadComのNetXtreamというLANポートなのに、QLogicのドライバのアドレスが記載されています。
おかしいだろ!と思い、またサポートへ電話。
QLogicがBroadComを買収したのでそれであっているという回答が・・・なら紛らわしいのでメールに書いておけよ!

で改めてセットアップ。えらく時間がかかった上に、ドライバがインストールされない!
半分あきれながらサポートへ電話。
調査の上に折り返し電話がかかってきて、ドライバが間違っていました。正しいドライバのURLを送りますが、念のため実機でテストしてからメールしますとのこと。
1時間後、メールが届いたので、ダウンロードのうえ、また実行。
・・・・・またドライバが入らない・・・・。

プッツン切れました!!
もちろんすぐにサポートに電話。電話してもすぐにつながるわけでなく実際に受付につながるまでに毎回5分はかかります。
こちらから電話するのはほとほと疲れたので「10分ごとに経過報告せい!」と伝えて電話を切ります。
何度か電話がかかってきて経過報告がありましたが、その後、間違ったドライバを案内してきた女性エンジニアから電話が。

QLogicのドライバはまちがっていたということを謝罪。
実機で検証してからこちらに教えたドライバは、うちのサーバーと違うサーバーで検証していたということ。
チーミングできなくて電話した際に、こちらから伝えたドライバで実は正しかったということ。
エラーメッセージを伝えていたのにメモしていなくてどんなエラーだったか現状わからないということ。
これから改めて検証するのでしばらく時間が欲しいということ。

なんだか聞いていて呆れてしまいました・・・。(苦笑)

ここまでの話で、今度はうまくいきそうな予感をもちながら、もう一度最初に入れたドライバをインストールしました。
あっさりチーミング完了です・・・。
丸一日かかって、DELLのサポートは役立たずで自己解決しました。

というわけで本日木曜日。
ようやくサーバーの本格的な復旧作業に入りました。

DELLのサポートへは、自己解決したことを嫌味たっぷりで伝え、別の宿題をお願いしたのですが今のところ回答なしです。
水曜日中に回答入れるように言ったんだけどねぇ・・・。

コメントを残す