據外媒報道,美國東部時間周日下午3點25分(北京時間3日凌晨3點25分),谷歌云發生大規模宕機,影響了包括北美、英國、歐洲、南美等全球多地的谷歌服務。此次谷歌云服務斷線影響了諸多谷歌旗下網站與App的運行,包括世界最流行的郵件應用Gmail、世界最大視頻網站YouTube與免費辦公套件G Suite。此外包括Discord、Snapchat等依賴谷歌云服務的第三方App也受到了影響。

▲圖片來源于網絡

前有亞馬遜AWS電纜被挖,今又有谷歌云宕機,最近云服務廠商風波不斷!這已經不是第一次發生大規模宕機事件,對很多企業造成直接的利益損失!

究竟什么是宕機?會有什么影響?

舉個栗子,云服務好比是一個家庭的水電暖供應的基礎設施。停電 1 分鐘,對于一般家庭而言,也許只意味著少看一會兒電視、少吹一會兒空調,但對于企業而言,或許意味著一條生產線的癱瘓、整個生產流程的推倒重來。同理,云服務器宕機 1 分鐘,對于云服務提供商來說是一次運維故障,但對企業而言,或許意味著客戶的流失甚至破產,特別是不可逆的故障,這不是云服務提供商賠償就能挽回的。

現在越來越多的企業將其業務系統、數據部署在云上,云服務器一旦宕機,企業業務必然會受波及,因此安全被各企業視為頭等要務。

▲圖片來源于網絡

世界上沒有任何一家公司可以保證100%的服務可用性。但是作為一家互聯網公司,如何通過選擇合適服務供應商,降低業務中斷的發生幾率,這里面是有策略和邏輯的,小編特意采訪了Oceanpayment錢海CTO Kevin和GM of EU & Operations Lilia(曾任歐洲某支付集團創始人兼COO),來聽聽他們的專業意見。

Kevin:

Oceanpayment在選擇服務商的時候,會著重考慮服務商的服務可用性、單點故障可能性。Oceanpayment從2017年開始,服務可用性已經達到了99.99%,也就是說一年中發生系統性故障的時間不能超過52.6分鐘,且從實際業務看甚至達到了99.999%,也就是故障時間不超過5.26分鐘。所以Oceanpayment在選擇服務商的時候就必須要求服務商的服務可用性不能低于99.99%,否則會影響到Oceanpayment的服務可用性。

其次是考察服務商的網絡資源、業務資源等方面是否存在單點故障的可能性,我們認為服務商在每個業務節點都要有雙點甚至多點的切換機制,以確保業務的連續性。

當然,對于企業來講,災備和演練也很重要。企業平時做好充分的準備,經常演練,就不怕災難發生后恢復不了數據,恢復不了業務,給公司造成致命風險。不要把雞蛋都放在一個籃子里的道理大家都懂,尤其是在當今的信息時代,花點時間定期進行數據的備份,這絕對值得去做。

Lilia:

從業務運營的角度,有的時候故障是無法避免的,所以我們會著重關注服務商在出現故障后發現問題的速度和響應機制。當故障出現,服務商應該在最短的時間發現問題、定位問題和修復問題,且應該在第一時間通知商戶和并給出合理的方案和建議。一個擁有良好素質的運營團隊可以幫助商戶在故障出現后有效的降低損失,了解故障進展,并提出故障解決可執行思路或者方案。比如此次谷歌云服務故障發生當晚,Oceanpayment24小時監控系統就立即發現了異常并發出警報,運營支撐團隊立刻發起應急機制,連夜進入戰斗狀態,通過監測客戶網站交易數據、測試網站支付流程、同時采集多方數據進行分析,用時不到二十分鐘即確認是谷歌云服務故障,客關團隊立即通過電話、微信和郵件等不同方式有效的通知商戶,從發生警報到應急處理結束,距離谷歌云服務故障不到一個小時。

Oceanpayment始終以客戶為本,共進步共發展。用心服務、專業服務和快速響應是Oceanpayment本地化服務的基礎。

我們的服務始于支付,不止于支付!

歷年云服務宕機大事件回顧

2018 年 11 月 9 日 谷歌公有云下的 Kubernetes 服務(GKE)宕機。

2019 年 3 月 2 日

阿里云開始出現大規模故障,這場事故持續了三個小時左右,事后觀察了兩個小時。

2019 年 3 月 12 日

3 月 12 日全球各地的谷歌云用戶反映使用 Gmail、YouTube、Google Drive、谷歌音樂與谷歌的其他服務時都遇到了問題,谷歌隨后承認出現故障,谷歌云平臺狀態頁面(Google Cloud Status Dashboard)顯示,此次故障影響了谷歌云存儲的所有區域。

2019 年 3 月 13 日

3 月 13 日,全球最大的社交網絡 Facebook 及其旗下 Instagram 和 WhatsApp 的服務器均出現故障。部分服務器故障時間長達 24 小時,這是 Facebook 公司近期遭遇的史上最長宕機。

    切換版本語言
安徽快三走势图今天