哪些原因會(huì)導(dǎo)致數(shù)據(jù)中心斷網(wǎng)？

來源： 北京會(huì)場(chǎng)無線網(wǎng)絡(luò)租賃無線覆蓋服務(wù)商 日期：03-26 屬于：行業(yè)動(dòng)態(tài)

人再囧途之泰囧在2012年歲末床下了華語電影的票房記錄，而且還在刷新著記錄。但是在IT界，頻頻爆發(fā)的數(shù)據(jù)中心安全故障事件，也在一次次沖擊著企業(yè)用戶的心理防線。只期待，數(shù)據(jù)中心的安全問題，不要成為人再囧途之“泰囧”。

云計(jì)算服務(wù)在這個(gè)時(shí)代被吹捧成為IT圣者，所有的服務(wù)都可以被“云”化。但是，當(dāng)很多公司勇于個(gè)吃螃蟹之后，卻發(fā)現(xiàn)往往較容易受傷的也是他們。近幾年來，層出不窮的云服務(wù)斷網(wǎng)事件，讓業(yè)界聽得心驚膽寒。

人們漸漸回歸理想，更加清晰地看清楚云計(jì)算的真面目。可以說，無論多么高遠(yuǎn)的夢(mèng)想還是要找到穩(wěn)固的立足點(diǎn)，云服務(wù)較終還是要從一個(gè)數(shù)據(jù)中心被傳輸?shù)搅硗庖粋€(gè)數(shù)據(jù)中心，在這個(gè)過程仍然擺脫不了需要人、計(jì)算機(jī)、網(wǎng)絡(luò)、電能、存儲(chǔ)等之間協(xié)同工作。這樣一來，整個(gè)過程出現(xiàn)錯(cuò)誤和漏洞就在所難免，再加上天災(zāi)人禍。所以，啟用云服務(wù)你必須有一定的思想準(zhǔn)備，同時(shí)要有第二手的解決方案來應(yīng)對(duì)。

編者在這里回顧一下近年來發(fā)生的一系列斷網(wǎng)事件背后的原因。從2009年-2012年之間。也許能讓你看到：即便是計(jì)算機(jī)出錯(cuò)似乎在所難免，再保險(xiǎn)的措施似乎也只能把安全事件控制在一個(gè)小概率范圍內(nèi)。

斷網(wǎng)類型一：系統(tǒng)故障

典型事件1：亞馬遜AWS平安夜斷網(wǎng)

故障原因：彈性負(fù)載均衡服務(wù)故障

2012年12月24日，剛剛過去的圣誕節(jié)平安夜，亞馬遜并沒有讓他們的客戶過得太平安。亞馬遜AWS位于美國東部1區(qū)的數(shù)據(jù)中心發(fā)生故障，其彈性負(fù)載均衡服務(wù)（Elastic Load Balancing Service）中斷，導(dǎo)致Netflix和Heroku等網(wǎng)站受到影響。其中，Heroku在之前的AWS美國東部區(qū)域服務(wù)故障中也受到過影響。不過，有些巧合的事情是Netflix的競爭對(duì)手，亞馬遜自己的業(yè)務(wù)Amazon Prime Instant Video并未因?yàn)檫@個(gè)故障而受到影響。

12月24日，亞馬遜AWS中斷服務(wù)事件不是次，當(dāng)然也絕非較后一次。

2012年10月22日，亞馬遜位于北維吉尼亞的網(wǎng)絡(luò)服務(wù)AWS也中斷過一次。其原因與上次相似。事故影響了包括Reddit、Pinterest等知名大網(wǎng)站。中斷影響了彈性魔豆服務(wù)，其后是彈性魔豆服務(wù)的控制臺(tái)，關(guān)系數(shù)據(jù)庫服務(wù)，彈性緩存，彈性計(jì)算云EC2，以及云搜索。這次事故讓很多人認(rèn)為，亞馬遜是應(yīng)該升級(jí)其北維尼吉亞數(shù)據(jù)中心的基礎(chǔ)設(shè)施了。

2011年4月22日，亞馬遜云數(shù)據(jù)中心服務(wù)器大面積宕機(jī)，這一事件被認(rèn)為是亞馬遜史上較為嚴(yán)重的云計(jì)算安全事件。由于亞馬遜在北弗吉尼亞州的云計(jì)算中心宕機(jī)，包括回答服務(wù)Quora、新聞服務(wù)Reddit、Hootsuite和位置跟蹤服務(wù)FourSquare在內(nèi)的一些網(wǎng)站受到了影響。亞馬遜官方報(bào)告中聲稱，此次事件是由于其EC2系統(tǒng)設(shè)計(jì)存在漏洞和設(shè)計(jì)缺陷，并且在不斷修復(fù)這些已知的漏洞和缺陷來提高EC2（亞馬遜ElasticComputeCloud服務(wù)）的競爭力。

2010年1月，幾乎6萬8千名的Salesforce.com用戶經(jīng)歷了至少1個(gè)小時(shí)的宕機(jī)。Salesforce.com由于自身數(shù)據(jù)中心的“系統(tǒng)性錯(cuò)誤”，包括備份在內(nèi)的全部服務(wù)發(fā)生了短暫癱瘓的情況。這也露出了Salesforce.com不愿公開的鎖定策略：旗下的PaaS平臺(tái)、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現(xiàn)問題，F(xiàn)orce.com同樣會(huì)出現(xiàn)問題。所以服務(wù)發(fā)生較長時(shí)間中斷，問題將變得很棘手。

斷網(wǎng)誘因二：自然災(zāi)害

典型事件1：亞馬遜北愛爾蘭柏林?jǐn)?shù)據(jù)中心宕機(jī)

故障原因：閃電擊中柏林?jǐn)?shù)據(jù)中心的變壓器

2011年8月6日，在北愛爾蘭都柏林出現(xiàn)的閃電引起亞馬遜和微軟在歐洲的云計(jì)算網(wǎng)絡(luò)因?yàn)閿?shù)據(jù)中心停電而出現(xiàn)大規(guī)模宕機(jī)。閃電擊中都柏林?jǐn)?shù)據(jù)中心附近的變壓器，導(dǎo)致其爆炸。爆炸引發(fā)火災(zāi)，使所有公用服務(wù)機(jī)構(gòu)的工作暫時(shí)陷入中斷，導(dǎo)致整個(gè)數(shù)據(jù)中心出現(xiàn)宕機(jī)。

這個(gè)數(shù)據(jù)中心是亞馬遜在歐洲的數(shù)據(jù)存儲(chǔ)地，也就是說，EC2云計(jì)算平臺(tái)客戶在事故期間沒有其他數(shù)據(jù)中心可供臨時(shí)使用。宕機(jī)事件使得采用亞馬遜EC2云服務(wù)平臺(tái)的多家網(wǎng)站長中斷達(dá)兩天時(shí)間之久。

典型事件2：卡爾加里數(shù)據(jù)中心火災(zāi)事故

故障原因：數(shù)據(jù)中心發(fā)生火災(zāi)

2012年7月11日卡爾加里數(shù)據(jù)中心火災(zāi)事故：加拿大通信服務(wù)供應(yīng)商ShawCommunicationsInc位于卡爾加里阿爾伯塔的數(shù)據(jù)中心發(fā)生了一場(chǎng)火災(zāi)，造成當(dāng)?shù)蒯t(yī)院的數(shù)百個(gè)手術(shù)延遲。由于該數(shù)據(jù)中心提供管理應(yīng)急服務(wù)，此次火災(zāi)事件影響了支持關(guān)鍵公共服務(wù)主要的備份系統(tǒng)。此次事件為一系列政府機(jī)構(gòu)敲響了警鐘，必須確保及時(shí)的恢復(fù)和擁有故障轉(zhuǎn)移系統(tǒng)，同時(shí)結(jié)合出臺(tái)災(zāi)害管理計(jì)劃。

典型事件3：超級(jí)颶風(fēng)桑迪襲擊數(shù)據(jù)中心

故障原因：風(fēng)暴和洪水導(dǎo)致數(shù)據(jù)中心停止運(yùn)行

2012年10月29日，超級(jí)颶風(fēng)桑迪：紐約和新澤西州的數(shù)據(jù)中心都受到了此次颶風(fēng)的影響，所帶來的惡劣影響包括為曼哈頓下城地區(qū)的洪水和一些設(shè)施的停機(jī)，周圍地區(qū)數(shù)據(jù)中心發(fā)電機(jī)運(yùn)行失常。颶風(fēng)桑迪所帶來的影響超出了一般單一的中斷事故，為受災(zāi)地區(qū)數(shù)據(jù)中心產(chǎn)業(yè)帶來了規(guī)?？涨暗臑?zāi)難。事實(shí)上，柴油已然成為了數(shù)據(jù)中心恢復(fù)工作的生命線，作為備用電源系統(tǒng)接管了整個(gè)地區(qū)的負(fù)荷，促使特別措施，保持發(fā)電機(jī)的燃料。隨著眼前的工作重點(diǎn)逐步轉(zhuǎn)移到災(zāi)后重建，我們有必要長期就數(shù)據(jù)中心的選址、工程和災(zāi)難恢復(fù)進(jìn)行探討，這一話題可能將持續(xù)幾個(gè)月，甚至幾年。

斷網(wǎng)誘因三：人為因素

典型事件1：Hosting.com服務(wù)中斷事故

故障原因：服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉

2012年7月28日Hosting.com停運(yùn)事件：人為錯(cuò)誤通常被認(rèn)為是數(shù)據(jù)中心停機(jī)的主導(dǎo)因素之一。7月Hosting.com中斷事件造成 1100名客戶服務(wù)中斷就是一個(gè)例子。停機(jī)事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進(jìn)行UPS系統(tǒng)預(yù)防性維護(hù)，“服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉是造成數(shù)據(jù)中心套房內(nèi)的設(shè)施損失的關(guān)鍵因素之一。”Hosting.com首席執(zhí)行官ArtZeile說。“沒有任何重要的電力系統(tǒng)或備用電源系統(tǒng)出現(xiàn)故障，完全是一種人為的錯(cuò)誤造成的。”

典型事件2：微軟爆發(fā)BPOS服務(wù)中斷事件

故障原因：微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個(gè)沒有確定的設(shè)置錯(cuò)誤造成的

2010年9月，微軟在美國西部幾周時(shí)間內(nèi)出現(xiàn)至少三次托管服務(wù)中斷事件向用戶致歉。這是微軟爆出重大的云計(jì)算事件。

事故當(dāng)時(shí)，用戶訪問BPOS（Business Productivity Online Suite）服務(wù)的時(shí)候，如果使用微軟北美設(shè)施訪問服務(wù)的客戶可能遇到了問題，這個(gè)故障持續(xù)了兩個(gè)小時(shí)。雖然，后來微軟工程師聲稱解決了這一問題，但是沒有解決根本問題，因而又產(chǎn)生了9月3日和9月7日服務(wù)再次中斷。

微軟的Clint Patterson說，這次數(shù)據(jù)突破事件是由于微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個(gè)沒有確定的設(shè)置錯(cuò)誤造成的。BPOS軟件中的離線地址簿在“非常特別的情況下”提供給了非授權(quán)用戶。這個(gè)地址簿包含企業(yè)的聯(lián)絡(luò)人信息。

微軟稱，這個(gè)錯(cuò)誤在發(fā)現(xiàn)之后兩個(gè)小時(shí)就修復(fù)了。微軟稱，它擁有跟蹤設(shè)施，使它能夠與那些錯(cuò)誤地下載這些數(shù)據(jù)的人取得聯(lián)系以便清除這些數(shù)據(jù)。

斷網(wǎng)誘因四：系統(tǒng)故障

典型事件1：GoDaddy網(wǎng)站DNS服務(wù)器中斷

故障原因：系統(tǒng)內(nèi)一系列路由器的數(shù)據(jù)表造成的網(wǎng)絡(luò)中斷

2012年9月10日GoDaddy網(wǎng)站DNS服務(wù)器中斷：域名巨頭GoDaddy是一家較重要的DNS服務(wù)器供應(yīng)商，其擁有500萬個(gè)網(wǎng)站，管理超過5000萬的域名。這就是為什么九月10日中斷事故會(huì)是一個(gè)2012年較具破壞性的事件。

一些炒作甚至認(rèn)為，此次長達(dá)6個(gè)小時(shí)的中斷事件是由于拒絕服務(wù)攻擊的結(jié)果，但GoDaddy后來表示，這是路由器表的損壞數(shù)據(jù)造成的。“服務(wù)中斷不是由外部影響造成的。”GoDaddy的臨時(shí)首席執(zhí)行官史葛瓦格納說。“這不是黑客攻擊也不是一個(gè)拒絕服務(wù)攻擊（DDoS）。我們已經(jīng)確定了服務(wù)中斷是由于內(nèi)部的一系列路由器的數(shù)據(jù)表造成的網(wǎng)絡(luò)事件損壞。”

典型事件2：盛大云存儲(chǔ)斷網(wǎng)

故障原因：數(shù)據(jù)中心一臺(tái)物理服務(wù)器磁盤損壞

2012年8月6日晚上8：10，盛大云在其官方微博上發(fā)布一則因云主機(jī)故障致用戶數(shù)據(jù)丟失事件的公開聲明。聲明說到：8月6日，盛大云在無錫的數(shù)據(jù)中心因?yàn)橐慌_(tái)物理服務(wù)器磁盤發(fā)生損壞，導(dǎo)致“個(gè)別用戶”數(shù)據(jù)的丟失。盛大云已經(jīng)在盡全力協(xié)助用戶恢復(fù)數(shù)據(jù)。

對(duì)于因?yàn)橐慌_(tái)“物理服務(wù)器磁盤發(fā)生損壞”，導(dǎo)致“個(gè)別用戶”數(shù)據(jù)的丟失的情況，盛大云技術(shù)人員給出自己的解釋：虛擬機(jī)的磁盤有兩種生產(chǎn)方式，一種是直接使用宿主機(jī)的物理磁盤。這種情況下，如果宿主機(jī)的物理磁盤發(fā)生故障，云主機(jī)不可避免會(huì)造成數(shù)據(jù)丟失，這也是本次事件產(chǎn)生的原因;另外一種是使用遠(yuǎn)程存儲(chǔ)，也就是盛大硬盤產(chǎn)品，這種方式實(shí)際上是把用戶的數(shù)據(jù)存到了遠(yuǎn)程的一個(gè)集群里，并同時(shí)做了多份備份，即使宿主機(jī)出故障也不會(huì)影響到云主機(jī)的數(shù)據(jù)。因?yàn)槲锢頇C(jī)的損壞很難避免，為了避免您遇到意外損失，我們建議您在云主機(jī)之外，也做好數(shù)據(jù)備份。

典型事件3：Google App Engine中斷服務(wù)

故障原因：網(wǎng)絡(luò)延遲

Google App Engine：GAE是用于開發(fā)和托管WEB應(yīng)用程序的平臺(tái)，數(shù)據(jù)中心由google管理，中斷時(shí)間是10月26日，持續(xù)4小時(shí)，因?yàn)橥蝗蛔兊梅磻?yīng)緩慢，而且出錯(cuò)。受此影響，50%的GAE請(qǐng)求均失敗。

谷歌表示沒有數(shù)據(jù)丟失，應(yīng)用程序行為也有備份可以還原。為表歉意，google宣布11月份用戶可以google表示他們正在加強(qiáng)其網(wǎng)絡(luò)服務(wù)以應(yīng)對(duì)網(wǎng)絡(luò)延遲問題，“我們已經(jīng)增強(qiáng)了流量路由能力，并調(diào)整了配置，這些將會(huì)有效防止此類問題再次發(fā)生”。

斷網(wǎng)誘因五：系統(tǒng)Bug

典型事件1：Azure全球中斷服務(wù)

事故原因：軟件Bug導(dǎo)致閏年時(shí)間計(jì)算不正確

2012年2月28日，由于“閏年bug”導(dǎo)致微軟Azure在全球范圍內(nèi)大面積服務(wù)中斷，中斷時(shí)間超過24小時(shí)。雖然微軟表示該軟件BUG是由于閏年時(shí)間計(jì)算不正確導(dǎo)致，但這一事件激起了許多用戶的強(qiáng)烈反應(yīng)，許多人要求微軟為此做出更合理詳細(xì)的解釋。

典型事件2：Gmail電子郵箱爆發(fā)全球性故障

事故原因：數(shù)據(jù)中心例行性維護(hù)時(shí)，新程序代碼的副作用

2009年2月24日，谷歌的Gmail電子郵箱爆發(fā)全球性故障，服務(wù)中斷時(shí)間長達(dá)4小時(shí)。谷歌解釋事故的原因：在位于歐洲的數(shù)據(jù)中心例行性維護(hù)之時(shí)，有些新的程序代碼（會(huì)試圖把地理相近的數(shù)據(jù)集中于所有人身上）有些副作用，導(dǎo)致歐洲另一個(gè)資料中心過載，于是連鎖效應(yīng)就擴(kuò)及到其它數(shù)據(jù)中心接口，較終釀成全球性的斷線，導(dǎo)致其他數(shù)據(jù)中心也無法正常工作。

典型事件3：“5.19斷網(wǎng)事件”

事故原因：客戶端軟件Bug，上網(wǎng)終端頻繁發(fā)起域名解析請(qǐng)求，引發(fā)DNS擁塞

2009年5月19日的21：50，江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶申告訪問網(wǎng)站速度變慢或無法訪問。經(jīng)過工信部相關(guān)單位調(diào)查通報(bào)稱，此次全國六省網(wǎng)絡(luò)中斷事故，原因是國內(nèi)某公司推出的客戶端軟件存在缺陷，在該公司域名授權(quán)服務(wù)器工作異常的情況下，導(dǎo)致安裝該軟件的上網(wǎng)終端頻繁發(fā)起域名解析請(qǐng)求，引發(fā)DNS擁塞，造成大量用戶訪問網(wǎng)站慢或網(wǎng)頁打不開。

其中，DN SPod是國內(nèi)知名的域名解析服務(wù)商之一的N SPod公司，服務(wù)數(shù)家知名網(wǎng)站的域名解析服務(wù)。此次攻擊導(dǎo)致DN SPod公司所屬的6臺(tái)dns域名解析服務(wù)器癱瘓，直接造成包括暴風(fēng)影音在內(nèi)的多家網(wǎng)絡(luò)服務(wù)商的域名解析系統(tǒng)癱瘓，由此引發(fā)網(wǎng)絡(luò)擁塞，造成大量用戶不能正常上網(wǎng)。工信部指出，此次事件暴露出域名解析服務(wù)成為目前網(wǎng)絡(luò)安全的薄弱環(huán)節(jié)，指示各單位要加強(qiáng)對(duì)域名解析服務(wù)的安全保護(hù)。

小結(jié)

啟用云服務(wù)的公司，很大程度是考慮這種服務(wù)可以更加編輯，性價(jià)比高。但是，這樣的考慮如果是以降低安全性作為代價(jià)，估計(jì)很多公司老大不會(huì)同意。層出不窮的云服務(wù)斷網(wǎng)事件引起了云端安全性的擔(dān)憂。

目前來看，解決的辦法可以從幾個(gè)角度出發(fā)，對(duì)于企業(yè)級(jí)客戶來說，務(wù)必在采用云服務(wù)的同時(shí)定期備份云端的數(shù)據(jù)，擁有第二套解決方案按，以備不時(shí)之需。而對(duì)于云服務(wù)提供商來說，既然各種斷網(wǎng)事件是在所難免的，那就必須思考一個(gè)對(duì)策，將自己用戶的損失降到較低，對(duì)斷網(wǎng)事件的響應(yīng)效率要提高。

政府部門則具有監(jiān)督和提醒的職責(zé)，云服務(wù)相關(guān)的法律法律要相繼出臺(tái)和不斷完善，并且提醒用戶百分之百可靠的云計(jì)算服務(wù)目前還不存在。

上一新聞：業(yè)界傳出稱百度將加速并購UCweb

下一新聞：360搜索引擎http://so.#上線

18以下勿进色禁网站永久视频_日本一区二区三区在线看_久久er国产精品免费观看8_韩国三级在线久看_久9热免费精品视频在线观看

無線產(chǎn)品

哪些原因會(huì)導(dǎo)致數(shù)據(jù)中心斷網(wǎng)？