2009年4月15日水曜日

ハングアップ

さて、昨年末に稼働したシンクライアントシステム SunRay。
トラブル続きだが、この辺で備忘を兼ねて経過と課題を整理しよう。

SunRayサーバ×2
A.内部情報系Windowsターミナルサーバ×2
B.基幹システム用Windowsターミナルサーバ×2

まず、A.の内部情報系が“固まる”。
A.はSun Fire X2200 M2で、HDDは1TB×2のRAID1構成。

導入当初からA.が連日のように“固まる”。
2台の内の1台が固まりやすいが、一定ではない。
アプリを疑い、まずメールチェッカ(B'sBiff)を停止。
Justsystem関係も怪しいので、不要なものは削除。
一時落ちつくかに見えるが、すぐにまた再現。

導入業者はディスクアクセスの問題を疑うも、決め手がなく、
メーカー側ではマザーボード(システムボード)の交換を試みるが、
改善されない。

OS(Windows Server 2003 R2)を再インストールして、
当初のような頻繁なハングアップはなくなったが、
それでも週に1回程度の頻度でハングアップする。

2台の内の1台では、
他のPCにリモートデスクトップ接続して、
業務アプリ(管理者用)を起動し、
印刷プレビュー(PDF)を表示すると、
必ずハングアップするという現象あり。

最終的にこの件は、メーカー側によって、
ディスクコントローラとデバイスドライバ間の不具合
と結論づけられた。
具体的には、
Native Command Queuing(NCQ) と
nVIDIAのRAID/IDEドライバとの間の不具合。

 NCQはディスクI/Oの最適化を実現するために導入されており、キューイングされたディスクに対する制御を効率が良い順番に並べ替える仕組み。そのため、nVIDIAのRAIDドライバとNCQとのに不具合がある場合に、nVIDIA ドライバが期待した通りの動作をディスクが実行しないため、ディスクへのI/Oにおいて不正が発生するらしい。

ディスクコントローラの修正版が適用されるまで、
NCQを無効に設定することで回避できるとのこと。

4/4(土)にその適用作業を行い、本日で12日経過。
これまでで最長の「安定稼動」になっている。

4ヶ月、長かったなぁ…

0 件のコメント: