“數(shù)據(jù)庫(kù)被刪了、勒索病毒原來(lái)這么厲害、英航空大面積延誤、鹿晗微博過(guò)熱導(dǎo)致服務(wù)器宕掉了……2017年,媒體公開(kāi)報(bào)道的IT宕機(jī)事件原因各異,有傳統(tǒng)的病毒攻擊,也有明星熱度引發(fā)的宕機(jī)、甚至還有前所未聞的前員工刪庫(kù)跑路事件……”
下面,英方災(zāi)備甄選了十大國(guó)內(nèi)外IT宕機(jī)事件——防范未然,讓世界早有準(zhǔn)備!
事件1:今日頭條服務(wù)器宕機(jī)
影響評(píng)級(jí):★★
時(shí)間:2017.1.6
原因:服務(wù)器故障。
持續(xù)時(shí)間:此后長(zhǎng)達(dá)30分鐘時(shí)間內(nèi)仍未解決。
影響范圍:不少用戶發(fā)現(xiàn)今日頭條出現(xiàn)宕機(jī)情況,頁(yè)面刷新不顯示,頭條號(hào)的編輯后臺(tái)亦無(wú)法進(jìn)入。
警示:做好服務(wù)器系統(tǒng)的業(yè)務(wù)連續(xù)性建設(shè)。
事件2:Gitlab誤刪數(shù)據(jù)庫(kù)
影響評(píng)級(jí):★★★★
時(shí)間:2017.1.31
原因:Gitlab 遭受DDoS 攻擊,導(dǎo)致數(shù)據(jù)庫(kù)寫(xiě)入鎖定,網(wǎng)站出現(xiàn)不穩(wěn)定和宕機(jī),在阻止了惡意郵件發(fā)送者之后,運(yùn)維人員開(kāi)始修復(fù)數(shù)據(jù)庫(kù)不同步的問(wèn)題,在修復(fù)過(guò)程中,錯(cuò)誤的在生產(chǎn)環(huán)境上執(zhí)行了數(shù)據(jù)庫(kù)目錄刪除命令,導(dǎo)致300GB數(shù)據(jù)被刪除,Gitlab 被迫下線。
持續(xù)時(shí)間:18小時(shí)的服務(wù)中斷
影響范圍:丟失用戶近6小時(shí)的數(shù)據(jù)
警示:加強(qiáng)IT審計(jì),備份和恢復(fù)測(cè)試
事件3:Instapaper宕機(jī)
影響評(píng)級(jí):★★
時(shí)間:2017.2.9
原因:數(shù)據(jù)故障是由2014年4月之前創(chuàng)建的RDS實(shí)例的2TB文件大小限制造成的,而2014年4月以后創(chuàng)建的實(shí)例由ext4文件系統(tǒng)支持,并受6TB文件大小限制。失敗的關(guān)鍵系統(tǒng)是我們的MySQL數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)作為托管解決方案在Amazon的關(guān)系數(shù)據(jù)庫(kù)服務(wù)(RDS)上運(yùn)行。
持續(xù)時(shí)間:2月14日服務(wù)才全面恢復(fù)
影響范圍:用戶無(wú)法正常訪問(wèn)頁(yè)面
警示:每月測(cè)試MySQL備份,強(qiáng)化應(yīng)急中斷工程團(tuán)隊(duì)建設(shè)
事件4:百度搜索移動(dòng)端故障
影響評(píng)級(jí):★★
時(shí)間:2017.2.28
原因:未給出原因。
持續(xù)時(shí)間:20:50- 21:25。
影響范圍:用戶用百度移動(dòng)端APP無(wú)法搜索內(nèi)容。
警示:需要強(qiáng)化快速恢復(fù)服務(wù)的能力。
事件5:微軟Azure云服務(wù)全球大面積故障
影響評(píng)級(jí):★★★
時(shí)間:2017.3.16
原因:Storage存儲(chǔ)問(wèn)題,一個(gè)微軟工程團(tuán)隊(duì)確認(rèn)原因?yàn)閿嚯妼?dǎo)致的存儲(chǔ)集群不可用。
持續(xù)時(shí)間:3月16日6:42-15:37。
影響范圍:微軟分布在全球各地的28個(gè)數(shù)據(jù)中心里,26個(gè)出現(xiàn)了存儲(chǔ)故障。部分地區(qū)使用 Storage服務(wù)的用戶在執(zhí)行服務(wù)管理運(yùn)營(yíng)操作(比如創(chuàng)建、更新、刪除)時(shí),可能會(huì)收到報(bào)錯(cuò)提醒。其他使用Storage的服務(wù)可能也會(huì)受到影響。
警示:加強(qiáng)防止大規(guī)模數(shù)據(jù)中心故障發(fā)生的制度性工作。
事件6:Digital Ocean刪庫(kù)宕機(jī)
影響評(píng)級(jí):★★★
時(shí)間:2017.4.5
原因:主數(shù)據(jù)庫(kù)被刪除了。
持續(xù)時(shí)間:4小時(shí)56分鐘。
影響范圍:這次故障導(dǎo)致其控制面板和API失靈,因而害得客戶無(wú)法創(chuàng)建新的虛擬服務(wù)器(即所謂的“Droplet”)。
警示:除了對(duì)主數(shù)據(jù)庫(kù)的訪問(wèn)進(jìn)行新的限制外,還對(duì)網(wǎng)絡(luò)進(jìn)行了升級(jí),加快數(shù)據(jù)庫(kù)服務(wù)器連接的速度。
事件7:全球多地爆發(fā)“WannaCry”系列勒索病毒
影響評(píng)級(jí):★★★★★
時(shí)間:2017.5.13
原因:WannaCry利用Windows操作系統(tǒng)445端口存在的漏洞進(jìn)行傳播,并具有自我復(fù)制、主動(dòng)傳播的特性。
持續(xù)時(shí)間:影響一周時(shí)間,并有變種病毒。
影響范圍:英國(guó)、中國(guó)、俄羅斯等99個(gè)國(guó)家在醫(yī)療、教育、企業(yè)、電信等機(jī)構(gòu)受到影響嚴(yán)重,受感染服務(wù)器的關(guān)鍵數(shù)據(jù)丟失,業(yè)務(wù)中斷。
警示:及時(shí)修訂系統(tǒng)漏洞,做好關(guān)鍵數(shù)據(jù)的CDP持續(xù)保護(hù)。
事件8:英國(guó)航空航班大面積延誤
影響評(píng)級(jí):★★★★
時(shí)間:2017.5.27
原因:可能是由于將網(wǎng)絡(luò)系統(tǒng)外包給印度公司造成。
持續(xù)時(shí)間:超過(guò)2天時(shí)間。
影響范圍:英航在全世界的值機(jī)系統(tǒng)和飛行系統(tǒng)都受到影響,呼叫中心和官方網(wǎng)站也無(wú)法正常運(yùn)行,導(dǎo)致航班無(wú)法起飛,大量乘客滯留機(jī)場(chǎng),很多人的行李也無(wú)法拿到。
警示:機(jī)場(chǎng)等重要交通場(chǎng)所需要建立可靠、可控的備份系統(tǒng),并及時(shí)啟用備用系統(tǒng)。
事件9:荷蘭海牙云主機(jī)商verelox前員工刪庫(kù)
影響評(píng)級(jí):★★★★★
時(shí)間:2017.6.10
原因:一名前任管理員刪光了該公司所有客戶的數(shù)據(jù),并且擦除了大多數(shù)服務(wù)器上面的內(nèi)容,客戶數(shù)據(jù)恢復(fù)希望渺茫。
持續(xù)時(shí)間:一周內(nèi)恢復(fù)正常。
影響范圍:暫時(shí)將verelox網(wǎng)絡(luò)下線。verelox一直在努力恢復(fù)數(shù)據(jù),但是這個(gè)方法可能恢復(fù)不了已丟失的所有數(shù)據(jù)。
警示:建議更改所有服務(wù)器密碼,建立數(shù)據(jù)防刪機(jī)制。
事件10:微博因鹿晗微博熱度過(guò)高宕機(jī)
影響評(píng)級(jí):★★★
時(shí)間:2017.10.8
原因: 由于鹿晗微博熱度過(guò)高,訪問(wèn)量太大。
持續(xù)時(shí)間:當(dāng)天下午2點(diǎn)。
影響范圍:微博出現(xiàn)罕見(jiàn)的宕機(jī)導(dǎo)致微博客戶端訪問(wèn)緩慢。
警示:備份更多的服務(wù)器以應(yīng)對(duì)高并發(fā)海量訪問(wèn)需求。
『總結(jié)』
IT系統(tǒng)宕機(jī),已經(jīng)從2015年的責(zé)任追究,到2016年的全民認(rèn)知提升,到今年勒索病毒導(dǎo)致數(shù)據(jù)丟失的眾所周知,全行業(yè)對(duì)信息系統(tǒng)的安全性的關(guān)切提升到新的高度。
與此同時(shí),我們也欣喜看到,除了個(gè)別事件由于遭受惡意刪庫(kù)無(wú)法恢復(fù),與“2016年國(guó)內(nèi)外宕機(jī)事件盤點(diǎn)”相比,2017年的系統(tǒng)宕機(jī)事件的恢復(fù)時(shí)間都有了很大的提升,表明事件故障機(jī)構(gòu)對(duì)系統(tǒng)恢復(fù)的能力有顯著的提高。
防范未然,讓世界早有準(zhǔn)備!所有信息化浪潮下的組織機(jī)構(gòu),建立專業(yè)、可靠的數(shù)據(jù)災(zāi)備和業(yè)務(wù)連續(xù)性體系不僅僅是規(guī)范企業(yè)自身的IT建設(shè)需求,更是用戶在產(chǎn)品質(zhì)量信得過(guò)以外,企業(yè)服務(wù)信得過(guò)方面的又一重要訴求。
為此,英方災(zāi)備依舊建議:
建設(shè)專業(yè)的災(zāi)備系統(tǒng),不要有僥幸心理
信息系統(tǒng)屬于企業(yè)重要的信息基礎(chǔ)設(shè)施,其安全問(wèn)題涉及到核心數(shù)據(jù)資產(chǎn),關(guān)乎企業(yè)生存與發(fā)展,涉及個(gè)人生存與生活,甚至觸及國(guó)家和社會(huì)的穩(wěn)定。中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》中明確指出要:強(qiáng)化信息安全保障,包括強(qiáng)化重要信息系統(tǒng)和數(shù)據(jù)資源保護(hù),加強(qiáng)數(shù)據(jù)資源在采集、存儲(chǔ)、應(yīng)用和開(kāi)放等環(huán)節(jié)的安全保護(hù),加強(qiáng)各類公共數(shù)據(jù)資源在公開(kāi)共享等環(huán)節(jié)的安全評(píng)估與保護(hù)等。而對(duì)于信息安全、數(shù)據(jù)安全,災(zāi)備是最基礎(chǔ)的技術(shù)需求,幾乎所有的信息資產(chǎn)都需要災(zāi)備保護(hù),以確保在任何意外故障情況下,信息系統(tǒng)的正常運(yùn)轉(zhuǎn)。
2017年6月1日,《中華人民共和國(guó)網(wǎng)絡(luò)安全法》正式實(shí)施。該法從保障網(wǎng)絡(luò)產(chǎn)品和服務(wù)安全,保障網(wǎng)絡(luò)運(yùn)行安全,保障網(wǎng)絡(luò)數(shù)據(jù)安全,保障網(wǎng)絡(luò)信息安全等方面進(jìn)行了具體的制度設(shè)計(jì)。該法第二十一條、三十四條明確規(guī)定關(guān)鍵信息基礎(chǔ)設(shè)施的運(yùn)營(yíng)者應(yīng)當(dāng)履行對(duì)重要系統(tǒng)和數(shù)據(jù)庫(kù)進(jìn)行容災(zāi)備份的保護(hù)義務(wù),并在其他條文中規(guī)定了相應(yīng)的處罰細(xì)則。
業(yè)務(wù)連續(xù)性管理應(yīng)該是“老板工程”
信息系統(tǒng)環(huán)境中的風(fēng)險(xiǎn)點(diǎn)和威脅點(diǎn)往往不是單一的,也不是靜態(tài)的,簡(jiǎn)單的安全產(chǎn)品堆砌已被證明不是有效的解決途徑。信息系統(tǒng)安全是涉及到技術(shù)、人員、組織、環(huán)境、法律及管理等多方面因素的系統(tǒng)性問(wèn)題,應(yīng)該采用信息保障的原理、技術(shù)和方法,以全局的、動(dòng)態(tài)的眼光來(lái)研究、設(shè)計(jì)、實(shí)施與維護(hù)信息系統(tǒng)安全工作。這需要企業(yè)機(jī)構(gòu)的負(fù)責(zé)人高度的重視,以第一責(zé)任人的安全意識(shí)規(guī)劃統(tǒng)籌業(yè)務(wù)連續(xù)性管理的工作。