預測攜程過后IT運維將成為一種享受
這個內容可能有點長,但請認真看下去,這是一個IT運維界十幾年的老兵的經驗,相信對你的職業生涯乃至你的人生有很大的幫助,也希望能影響到更多的人。所以我預測攜程事件過后,IT運維人反思過后,企業的運維將會是一種享受。
相信這段時間掛在IT界人士嘴邊的還是攜程網宕機事件,從28號中午11點截止晚上8點,攜程首頁還是指向一個靜態頁面,所有動態網頁都訪問不了。關于事故根源,網上眾說紛紜,有說是數據庫數據和備份數據被物理刪除的,也有說是誤操作,導致業務不可用,還有說是黑客攻擊甚至是內部員工惡意破壞的,從現象上看,確實是攜程的應用程序和數據庫都被刪除。我分析,最大的可能還是運維人員在正常的批量操作時出現了誤操作。
從上午11點傳出故障,到晚上8點,攜程網站一直沒能恢復。實際上大型網站,遠不是像把幾臺應用和數據庫服務器那么簡單。看似很久都沒有變化的一個網站,后臺是一個由SOA(面向服務)架構組成的龐大服務器集群,看似簡單的一個頁面背后由成百上千個應用子系統組成,每個子系統又包括若干臺應用和數據庫服務器,大家可以理解為每一個從首頁跳轉過去的二級域名都是一個獨立的應用子系統。這上千的個應用子系統,平時真正經常發布和變更的,可能就是不到20%的核心子系統,而且發布時都是做加法,很少完全重新部署一個應用。
在平時的運維過程中,對于常見的故障都會有應急預案。但像攜程這次所有系統包括數據庫都需要重新部署的極端情況,顯然不可能在應急預案的范疇中。在倉促上陣應急的情況下,技術方案的評估和選擇問題,不同技術崗位之間的管理協調的問題,不同應用系統之間的耦合和依賴關系,還有很多平時欠下的技術債都集中爆發了,更不用說很多不常用的子系統,可能上線之后就沒人動過,一時半會都找不到能處理的人。更要命的是,網站的核心系統,可能會寫死依賴了這個平時根本沒人關注的應用,想繞開邊緣應用只恢復核心業務都做到。更別說在這樣的高壓之下,各種噪音和干擾很多,運維工程師的反應也沒有平時靈敏。
簡單的說,就算所有代碼和數據庫的備份都存在,想要快速恢復業務,甚至比從0開始重新搭建一個攜程更困難。據網友在微博上發出了攜程大樓當天燃燈不滅的不眠夜。
攜程的這次事件,不管原因是什么,都會成為IT運維歷史上的一個標志性事件。相信之后所有的IT企業和技術人員,都會去認真的反思,總結經驗教訓。但我相信,不同的人在不同的位置上,看到的東西可能是截然相反的,甚至可能會有不少企業的管理者受到誤導,開始制定更嚴格的規章制度,嚴防運維人員再犯事。在此,我想表明一下我的態度:這是一個由運維引發的問題,但真正的根源其實不僅僅在運維,預防和治理更應該從整個企業的治理入手。
長久以來,在所有的企業中,運維部門的地位都是很邊緣化的。企業的管理者會覺得運維部門是成本部門,只要能支撐業務就行。業務部門只負責提業務需求,開發部門只管做功能的開發,很多非功能性的問題無人重視,只能靠運維人員肩挑人扛到處救火,可以認為是運維部門靠自己的血肉之軀實現了業務部門的信息化。在這樣的場景下,不光企業的管理者不知道該如何評價運維的價值,甚至很多運維從業者都不知道自己除了到處救火外真正應該關注什么,當然也沒有時間和精力去思考。
在上面的情況下,傳統的運維人員實際上是所謂的“黑屋運維”,不斷的去做重復性的操作,時間長了之后,只知道自己管理的服務器能正常對外服務,但是卻不知道里面應用的依賴關系,哪些配置是有效配置、哪些是無效配置,只敢加配置,不敢刪配置,欠的技術債越來越多。在這樣的情況下,遇到這次攜程的極端案列,需要完整的重建系統時候,就很容易一籌莫展了。
對于這樣的故障,我們認為真正有效的根源解決做法是從黑屋運維走向白屋運維,和siteview ITOSS中的SAM服務器及應用管理這樣的運維工具理念一致,運維的核心和難點其實是配置管理,運維人員只有真正的清楚所管理的系統的功能和配置,才能從根源上解決到處救火疲于奔命的情況,也才能真正的杜絕今天攜程這樣的事件重現,從根本上解決運維的問題。
從黑盒運維走向白盒運維,再進一步實現從監控到IT服務共享數據中心,就是siteview ITOSS所謂的運維2.0——自動化的IT運維很顯然,這個單靠運維部門自身是做不到的,需要每一個企業的管理者、業務部門、開發部門去思考。因此,我希望今天這個事件,不要簡單的讓運維來背黑鍋,而是讓大家真正的從中得到教訓和啟示。
IT運維的核心是幫助企業IT運維部門從成本中心走向最大利潤中心,運用智能型的IT運維管理系統來智慧運維,所以既是關注IT運維人員的健康成長,更是對企業業務運營起到保障的作用。Siteview作為國內IT運維行業最早涉入者,Siteview作為一個老資歷的從業者來說,服務過的客戶還是很多的,國內的政/府、大型企業、事業機構對IT運維還是很重視的,而大部分企業,可以說有85%的都把IT運維部門邊緣化了,還停留在IT運維的1.0人工肉體背負的時候,有的企業甚至是沒有IT運維,還是半路出家的非專業人士在死守如此重要的陣地。工業4.0的時代、互聯網+的時代、移動互聯的時代,IT運維應該不是一個部門的事情,不再是原始的只要能運轉就行,而是作為業務系統中的一個不可替代的部分,一個中堅抵柱的部分,一個促進企業贏利的部分,讓管理部門、企業、行業、社會都會尊敬的一環,構筑IT管理原生態的健康發展,保障企業商業文明的進步。但愿IT運維人的精神、義務、歸宿在人類文明的進程中升華,也讓我們這些用血肉拼搏過的IT人,不再擔心吊膽在黑屋子里背負越來越多,技術債使我們成為IT運維的炮灰,使用IT運維管理系統,讓我們成享受IT運維自動化帶來的享受,不是天天心驚肉跳,而從企業的IT系統的監控到運維管理去把握好我們所掌握的網絡設備,網絡流量,服務器及應用,數據庫,中間件,虛擬機,存儲,文件,網站,OA,ERP,CRM等等。也請大家回復一下,你們企業是否在開始選用IT運維系統了。