?Uptime Institute今日發布其2025年第七份年度停機分析(Annual Outage Analysis)主題報告。對于數據中心所有者和運營商而言,預防數據中心停機仍然是一項戰略重點。基礎設施設備有所改進,但現代架構的復雜性以及不斷演變的外部威脅帶來了新的風險,運營商必須積極應對這些風險。
Uptime Intelligence研究連續第四年表明,總體停機頻率以及所報告的停機嚴重程度的總體水平持續下降。然而,網絡安全事件呈上升趨勢,并且往往會產生嚴重且持久的影響。
Uptime Intelligence創始成員兼執行董事Andy Lawrence表示:“總體而言,停機情況有所減少。數據中心運營商面臨著越來越多超出他們控制范圍的外部風險,包括電網限制、極端天氣、網絡提供商故障以及第三方軟件問題。盡管風險環境更加不穩定,但情況仍在改善。”
Uptime的年度停機分析在行業內獨樹一幟,它綜合了多項調查、Uptime Institute成員及合作伙伴提供的信息,以及其公開報告的停機事件數據庫。
主要研究結果包括:
相對于數字基礎設施的快速增長,停機事件變得越來越不頻繁,嚴重程度也在降低。這一趨勢已持續數年,突顯了行業在風險管理和可靠性方面的進步。
電力仍然是導致重大停機事件的主要原因。2024年,由IT和網絡問題導致的停機事件有所增加,占重大停機事件總數的23%。這一趨勢反映了長期以來向托管服務提供商、云計算及其他第三方服務的轉變。雖然外包可能會降低一些企業的風險,但重大故障仍時有發生,有時會造成嚴重后果。這種增長可能是由于IT和網絡復雜性增加,導致變更管理問題和配置錯誤。
基于軟件的分布式彈性工具正在不斷擴展。這些系統提高了正常運行時間,但也可能引入新的風險和復雜性。將基于軟件的彈性策略與物理故障切換/冗余相結合,無疑有助于整體可用性的提升。然而,增加的復雜性帶來了自身的挑戰,并且可能會模糊故障責任界限,使根本原因分析和停機分類變得更加復雜。
行業轉型的步伐正在加快。對AI的需求激增給現有基礎設施設計帶來了壓力,尤其是在電力和冷卻方面。與此同時,電網限制和全球貿易緊張局勢給供應鏈和擴張計劃帶來了新的不確定性。這些壓力共同作用,最終可能會影響當前可靠性趨勢的穩定性。
2025年,由未遵循程序導致的人為錯誤相關停機事件的比例比2024年上升了10個百分點。與上一年相比,員工未遵循程序已成為導致停機的更主要原因,這表明通過培訓和流程審查來減少此類事件存在重大機會。絕大多數與人為錯誤相關的停機事件都涉及忽視程序或程序不完善。在過去三年中,近40%的組織曾遭受過由人為錯誤導致的重大停機事件。在這些事件中,85%源于員工未遵循程序或流程和程序本身存在缺陷。這種上升的原因尚不清楚,但可能是行業快速增長以及許多地區由此導致的人員短缺的結果。雖然改進文檔記錄和流程仍然很重要,但更加注重員工培訓和實時運營支持可能會更有效地降低風險。
在Uptime追蹤公開報告的停機事件的九年時間里,第三方IT和數據中心服務提供商(包括云計算和互聯網巨頭、電信公司以及托管公司)約占所報告停機事件的三分之二。
2024年,歸因于數字服務提供商的停機事件有所增加,而來自云計算/互聯網巨頭的停機事件則有所減少,這可能是由于超大規模企業在分布式彈性和區域故障切換方面的投資。自2020年以來,金融行業的停機頻率連續第三年低于長期平均水平。這種改善可能反映了在2021年之前發生的幾起重大且備受矚目的停機事件之后,更嚴格的監管和監督所產生的影響。