障害情報(最終報告)
最終更新日:2008年2月8日 |
症 状 | ■TELECHART with TOWER、TELECHART Ver.4、サヤ取り支援ソフトが起動できない ■弊社HPの閲覧や弊社へのメールが届かない。 |
発生時期 | 1/9日6:30頃〜12:30頃 |
原 因 | 弊社契約先サーバーの障害のため |
原因詳細 | 弊社契約先サーバーのネットワーク機器内の障害 機器内のプログラムの不具合と見られる機器の稼働停止のため。 サーバー機器群の内部にあるレイヤースイッチと呼ばれる機器が停止したため サーバーからのデータが読み出せなくなり、結果としてサーバーからの応答がない状態になりました 通常、障害発生時には、障害の検知→迂回のための仕組みがありますが、 今回はこの障害の検知が正常に行われず迂回の仕組みが機能しなかったために復旧に時間がかかってしまいました。 検知が行われなかった理由: (1)ネットワーク機器(スイッチ)が障害発生に際し、「障害が発生している」という正しい警告(アラート)を発信できなかった。 (2)(1)の不具合により自動監視システムが障害を検知できなかった。 |
恒久対策 | (1)各機器から取得できるログを解析することによる監視を強化 (障害検知の精度向上と最適化) (2)障害にて問題が発生した機器類にリモートでのリブートが可能な機能を設置 (3)ウェブの動作やメールの流通など各サービスレベルの監視の強化 (障害復旧の迅速化) (4)外部委託の監視体制の強化 (障害検知の速度向上) (5)各種設定情報が記録されている機器をより耐障害性のある機器に移動 (耐障害性の向上) (6)障害の発生した場合の連絡窓口の確保 (7)常時サーバー情報の提供 (サービス面での向上) |
|
Copyright 2007 © SYSTEC Corporation. All Rights Reserved. |