西洋萬聖節前夕,全臺都家喻戶曉的BBS網站批踢踢實業坊Ptt,無預警發生服務中斷的情況,站方最初於10月30日晚間在臉書的粉絲頁上,公告正在解決無法連線的問題,到了隔天上午,站方表示是因為磁碟陣列故障,預計11月1日恢復正常,不過,直到當天晚間八點,站方貼出致歉文,宣布將復原時間延至11月3日,並表示將著重在修復磁碟陣列,以及將先前備份的資料復原到備用的伺服器上。
若這個目標達成,Ptt無法運作的時間將長達4天,但如果不能克服相關問題,則可能要更久!若以站方公布的訊息來判斷事故的主因,癥結點應該是磁碟陣列設備或是硬碟的故障。而類似關於儲存設備出問題的狀況,之前也發生,例如,2015年因硬碟容量已滿而故障,2007年因電源發生問題而停機,導致硬碟運作受到影響,需重建系統。
事實上,所有的IT應用系統都有可能因為各式各樣的原因,而面臨故障的狀況,不過,若是一而再、再而三的出現,我們應該要思考如何解決、避免這樣的問題發生。很可惜的是,對於這樣的事故,除了站方和使用者很著急之外,我們至今沒看到任何IT廠商出聲,主動提出建議或是表示願意提供相關的支援或贊助,但其實這是展示技術實力與愛臺善心的絕佳機會,希望NAS、儲存陣列、資料保護軟體廠商,趕快挺身而出,不要只是隔案觀火、漠不關心!
另一個讓我們很感慨的部份則是,當各種新奇的IT技術接踵而來的時候,沒想到我們每天在使用的應用系統、網站服務,還是如此脆弱不堪。根據維基百科對於批踢踢的資料記載,批踢踢有三個站,其中一個架設在一家公有雲服務平臺,但三個站的硬碟都壞了嗎?用了雲端服務,卻不能保障系統服務的可用性,所以,到底是怎麼回事?架構出了什麼問題?也許能有相關的人士能夠提出解法,以便發揮使用雲端服務的優勢。
據傳言,批踢踢系統既有的幾臺硬碟接連發生故障,站方雖然換上新的硬碟,但在RAID重建過程中,又發生故障。而對於這樣的狀況,令人好奇的是,儲存設備廠商現行的產品具有足夠的因應機制嗎?
張貼留言