ネットワーク障害の切り分け作業

ネットサービス
スポンサーリンク

ネットワークの業務を続けていると、運用段階で不具合の緊急連絡がありトラブル対応の依頼があります。

ネットワーク障害の標準化した手順をシェアしたいと思います。

 

主に以下の作業を行います。

  1. 「端末本体もしくは各業務システムの不具合事象」か「ネットワークあるいは基盤サーバー関わると思われる事象」
  2. 障害原因、障害発生個所、障害発生機器等の特定
  3. 原因報告
  4. ネットワークケーブル等の接続、障害機器の切り離しと設定変更し確認
  5. システム全体の稼働確認
  6. 完了報告
スポンサーリンク

現場で現状確認

  1. 現場へ入場(受付)
  2. お客様(関係部署)へのヒアリング
  3. 現場の目視点検
  4. ネットワーク接続試験
  5. お客様へ作業完了の報告
  6. 作業完了そ退場

①お客様(関係部署)へのヒアリング

お客様へのヒアリング内容は、障害発生時と到着時では、現場の状況やネットワーク環境が異なるので一概に比較できませんが以下の事に注意する事で解決へのステップが最短で行えます。

  1. 障害発生前に特別な作業を行ったか?ネットワーク機器(スイッチ、ハブ、ルーター、サーバ、ファイアウォール)の設定作業や増設作業が実施されたか?
  2. 年末などの停電作業からの復旧があったか?
  3. 障害発生時の日時や時間や期間はいつか?
  4. 他のネットワーク環境(他セグメント)の状況はどうか?
  5. 使用できないネットワーク場所はどこか?
  6. 何が使用できないのか?(アクセスポイントと接続できない、サーバーと接続できない、ファイルサーバに接続できない)
  7. ネットワークを使用できない端末・人がだれで、どのくらいあるか?

お客様の種類として

  • ネットワーク全体を管理している方
  • ネッワークの利用者であるエンドユーザー

などヒアリングする相手によって内容を変更する事で求められます。

ネットワーク全体を管理している方に対して

上記質問全てを必要があります。工場や企業などでは問1.問2によって担当者に心当たりがある場合には、そこを重点的にヒアリングを行います。

ネッワークの利用者であるエンドユーザーに対して

全体の把握をしていないので全ての問いを行う必要はありません。その為、問3、問7、問6を重点的にヒアリングします。

②現場の目視点検

ヒアリングを行ったら、現場に入って目視で物理的に確認を行っていきます。

  1. ネットワーク機器の電源が入っているか?
  2. ネットワーク機器の通信ランプが点灯しているか?
  3. LANケーブルの抜けや緩みが無いか?(LAN端子の腐食など)
  4. ネットワーク機器のファンは動作しているか?
  5. スイッチングハブやインテリジェントスイッチに空きポートはあるか?
  6. コンソール端末用の電源コンセントがあるか?
  7. 作業に必要なケーブルやツールがあるか?

ネットワーク機器の電源が入っているか?

一番初めに確認する作業が電源の確認です。電源給電ランプの有無を確認します。突然ネットワーク機器が(正常に)利用できない場合多いケースです。PoE+ハブの通信ランプの点灯を確認します。

Right Caption
以下の物理的な要因によって障害となる例が多いです。
  1. ユーザーが自分のPC・スマホの電源確保のために、既存のハブのコンセントを抜いて放置した。
  2. 社内レイアウト変更に伴い、ハブの電源をに抜いて差し戻すのを忘れた。
  3. LANケーブルを抜くつもりで電源ケーブルを抜いた。

LANケーブルの抜けや緩みが無いか?(LAN端子の腐食など)

LAN配線に問題が無いか確認する。ケーブルの誤接続、抜けや緩みなどを確認しましょう。ネットワーク機器の通信ランプ(黄色・緑色)が点灯しているか?赤色・橙色の場合、何らかのエラーが起きています。

    1. LANケーブルを引っ張った時に「LAN延長コネクタ」が水没・爪が折れて抜けた。
    2. 屋外LAN配線の劣化により不通となった。
    3. 屋内LAN配線にネズミが噛み不通となった。
    4. RJ45コネクタの爪が折れて、半差し状態になった。
    5. LANケーブルを引っ張った時に、隣接する他のLAN端子が半差しになった。
    6. ハブに予備の為に差さっているLANケーブルをハブに両方とも差し「ブロードキャストストリーム」を起こした。
    7. ハブに予備の為に差さっているLANケーブルを別のハブに差し「ループ」になった。

ネットワーク機器のファンは動作しているか?

スイッチなどのファンから異音が無いかを確認します。

スイッチングハブやインテリジェントスイッチに空きポートはあるか?

コンソール端末から「ping」「traceroute」コマンドなどを利用して通信状況を確認する為、物理的な空きポートが必要です。事前に空きポートの使用許可とIP情報などの許可を取る必要があります。

セキュリティが掛かったネットワークに無断で接続するとお客様に迷惑が掛かります。

コンソール端末用の電源コンセントがあるか?

サーバーなど保守作業にはコンソール端末が必要なり、必然的に電源コンセントが必要になります。

電源コンセント利用時には、お客様の了解を得て使っても良い電源コンセントの場所を教えてもらいます。コンソール端末の消費電力が加わった事でネットワーク機器の電源容量を超えてネットワーク全体がダウンした場合、多額の損害賠償が発生します。

セキュリティが掛かったネットワークで電源も管理されている場合、無断で接続するとお客様に迷惑が掛かります。

作業に必要なケーブルやツールがあるか?

我々が作業を行う上で必要なツールが揃っているか確認します。

  • コンソール端末
  • LANケーブル
  • コンソール用ケーブル
  • 作業手順書
  • ネットワーク図
  • など

お客様のシステム(ネットワーク)の接続する為、自身のPCをOSやウイルス対策ソフトを最新バージョンにします。

ネットワークエンジニアが持って行くモノ

インフラエンジニア・ネットワークエンジニアおすすめアイテム」でも紹介していますが、現場に持って行くツールが必要です。

  • ネットワーク端末で、POST(Power On Self Test:ハードウェア診断プログラム)にエラー表示がなく装置が正常に起動するか? を確認します。
  • 各端末のエラーログも収集します。

一般的な障害例

よくある障害例として以下の事例があります。

  1. 工場やビルの計画停電:計画停電によるネットワーク全体のダウンと復旧時の復旧タイミングによって一部のネットワークが普通となる場合があります。
  2. LANケーブルの半差しや抜け
  3. 電源ケーブルの半差しや抜け
  4. IPアドレスの重複:機器のIPアドレスが重複して通信できない場合があるので、IPアドレス管理表などで管理します。
  5. UPSの故障:UPS(無停電電源装置)を利用している場合、バッテリーの劣化や故障により給電が停止する場合があります。
  6. 機器の温度異常:機器内蔵ファンの故障や筐体内に機器が多すぎて機器がダウンする場合があります。
  7. 落雷サージによる電源故障:落雷によって過電流が電源から伝わりネットワーク機器が故障する場合があります。雷サージ対応の電源タップを利用するなど対策が必要です。
雷からPCを守る! LAN用 雷ガード アース接続不要絶縁タイプ【NPL-1001】NISSHIN/日辰電機
by カエレバ
コトヴェール ノイズ・雷サージプロテクタ SFU-005-3P
by カエレバ

コメント

タイトルとURLをコピーしました