Clara Online 東京機房網路中斷報告
事故發生時間
2006年1月17日晚上6點51分至8點20分
問題範圍
發生斷線的原因,經過研判,可能是router連至外部網路的線路上所發生的突發性問題。 目前已恢復正常連線狀態。
至於詳細斷線原因工程師仍在深入調查中。根據調查結果,我們將隨時更新消息。
首先克拉國際全體同仁謹向客戶致上萬分歉意。
日後將會更加強化網路系統設備的定時查檢,並縮短復原搶救時間,以期在萬一事故發生時,能將損失減至最低,有效達到危機管理。
【後續修復報告】
1. 修復過程:
18點51分 偵測系統發出事故警訊
18點55分 工程人員確認事故狀況
19點05分 工程人員在機房進行事故勘查
19點08分 重新啟動router → 並無特別異樣
19點15分 進行所有網路機器設備的檢查
20點00分 確認乙太網交換機的其中一台發生故障
20點15分 更換故障的機器,並追加static route,變更路徑至正常連線狀態的系統
20點20分 恢復正常連線
2. 斷線事故概要:
斷線發生時間
2006年1月17日 台北時間18點51分
斷線復原時間
2006年1月17日 台北時間20點20分 (約93分鐘)
事故影響範圍
東京第一機房與東京第二機房的部分客戶使用之伺服器
事故內容
部分客戶所使用之伺服器與外部網際網路的連線失效
復原方法
更新故障機器(乙太網交換機),變更OSPF(Open Shortest Path First)
通訊協定,將routing連至正常運作系統
事故原因
集群邊界交換機的乙太網交換機群中的一台發生故障,發送出異常封包,
導致管理網路備援系統的OSPF協定發生故障,造成網路連線失效。
Filed under: 事故報告 | Comments Off