新聞動態

分級處理IT故障 運維管理從容不迫

發布時間:2014-5-26

任何計算機系統都有出現故障的時候,可能發生在測試階段,也可能發生在系統剛剛上線,還可能發生在已經穩定運行很多年的系統上,又可能發生在系統一個小小的升級之后。而這些系統出現故障所帶來的負面影響則可大可小,小到一個終端的軟件無法使用,大到整個系統癱瘓,所有業務不能辦理。由此便有了IT故障處理分級的運作形式,將問題或故障做到先后有序,將IT運維故障劃分為普通、急、緊急……依靠這套省力的約定建立故障處理流程,是解放IT支持部門最有效的法則。

當計算機故障升級到“核災難”

佩特羅夫是原蘇聯一位年輕軍人、計算機工程師。1983年9月26日晚上,他正在莫斯科附近的某個導彈中心值班,他回憶說:“忽然,我面前的計算機屏幕變成了刺眼的紅色,刺耳的警報聲也隨之響起,聲音大得簡直能把死人都從墳墓里嚇醒。這是計算機預警系統發出美國向蘇聯實施核進攻的警報,美國人向我們發射核武器了!”一般人認為,計算機按事先編制的程序工作,它提供的信息應是絕對可靠的,計算機不會玩花招,但這次出現的情況卻不是這樣。警報還在不斷地響,佩特羅夫沒有被嚇呆,而是在積極思考。根據他掌握的情況來判斷,他認為,美國沒有理由在當時對蘇聯發動核攻擊,唯一的可能是計算機出錯。導彈中心接到佩特羅夫的報告后,急如星火地派人對計算機進行緊急檢修。結果證明,錯誤警報的發出完全是由計算機的故障造成的,計算機在這起故障中,充當了挑起核戰爭的罪魁禍首。

上面這個真實存在的計算機故障被列為IT界十大故障之首。雖然這起故障最終沒有引發全世界的“災難”,但是不是今后的數十年之后,就會完全避免此類事件發生呢?這引起了我們深深地思考。

作為IT運維產品和服務提供商的北塔軟件認為:“無論從技術角度出發,還是就業務角度而言,我們都需要對經常發生的IT故障進行各種考慮和權衡。在看起來似乎無法立即解決所有故障的情況下進行正確的權衡,則是IT運維人員成功的關鍵。這意味著要首先確定有哪些系統出現問題,會波及到核心業務的停滯范圍,以及理解并確定如何在出現故障的時候按照緊急度權衡,從而避免影響面最大的災難事件發生。”

北塔軟件的技術專家以一家正在實施BTIM IT綜合管理系統的銀行IT系統為例,為我們說明了故障和災難的區別。例如,對于一般的電腦系統故障,信科部或業務部門通過通常的措施(如激線、重組、重起、切換、脫機交易、沖證等)在短時間內能夠恢復對外的服務,對銀行業務和客戶利益沒有造成重大影響,此類事件稱之為故障。如果信息中心發生嚴重故障,導致管轄內大部分或全部的業務無法進行,且在一天內仍無法恢復正常對外服務,此類故障則要稱之為“災難”了。

故障優先級的兩大核心要素

確定優先級需要綜合考慮突發事件對業務的影響情況、恢復服務對業務的緊迫性、突發事件的大小、范圍和復雜程度以及當前可供突發事件處理的資源等等。在定義優先級之前,我們必須清楚它與兩個最重要的因素有關,即:影響度、緊急度。其中,影響度是衡量故障影響業務大小程度的指標,通常相當于故障影響服務質量的程度,它一般是根據受影響的人或系統的數量來確定的。而緊急度是評價故障和問題危機程度的指標,是根據客戶的業務需求和故障或問題的影響而制定的。因此,如何設定優先級,這需要根據影響程度和緊急程度的評估和數據收集工作,之后才是制定故障的處理順序。

一般來說,當IT出現故障時,首先要記錄與故障有關的客戶和用戶的信息,如姓名、工作地點和聯系電話等等,先對故障進行“初步歸類”,然后再進行初步處理。 在對故障進行歸類后,如果沒有成功地將故障與問題或先前知名錯誤(知識庫)進行匹配,下一步就是確定故障的優先級了,以確保對應的負責人給予故障必要的注意。當IT運維部門必須同時處理數個故障的時候,由于受到了時間、資源和人力等限制而無法立即解決全部問題時,此時就要排定處理的先后次序,即確定每個故障的優先級。但當出現故障后,沒有用戶會說他的問題可以放到以后解決。相反,他們總是認為自己的問題才是最需要優先解決的。因此,企業最好的IT運維方式,是通過服務臺機制、或是歷史的積累,以及業務部門負責人的認定之后,才能根據統計一些量化的指標來決定優先級。

當然,不同的企業所定義的故障優先級是不同的。例如:制造企業的ERP系統的故障的緊迫性和影響度就非常之高,有些故障或問題會直接影響業務運作,或影響公司的對外服務水平,或有法律上的風險。因為這會影響對客戶承諾的送貨時間,價格數據有誤等等,這些故障或問題需要IT支持部門馬上做出支持,以便最大限度地降低對業務運作的影響。

定義告警事件優先級 有效地處理故障

企業的 IT 管理部門就是為企業提供 IT 后勤服務,而IT運維軟件又是為企業的 IT 管理部門提供后勤服務的,而這恰恰是很多未能推進 IT 運維監控工作的企業最容易忽視的地方。這些企業依賴一些經驗豐富的“排錯專家”,他們的技能是能夠對在復雜環境中可能出現的性能和吞吐問題進行事先估計,并進行恰當的決策來避免這些問題。

但并不是每個人都是“佩特羅夫”,在我們看來,成功的IT運維部門所具有的最有價值的技能是將IT系統各個部分連接起來的能力。但是,由于傳統的,手工作坊一樣的管理效率不但低下,并且管理人員由于無法掌握全網的網絡設備運行情況,當網絡發生故障時也無法定位根源(即使我們從“影響度+緊急度==優先級”的公式計算中得到了結果)。同時,我們還應該清楚,不同的優先級,所處理得流程也是不一樣的。但是由于一些工程師的維護職責不是很清楚,每個人都大概知道自己該做什么,但是某個具體事情到底該誰負責,卻沒有明細流程。林林總總,這些都可能導致看似非致命的故障,最終則是全網范圍的網絡中斷,或者服務平臺災難性的事件發生。

而一套優秀的IT運維系統恰好可為優先級的管理奠定了預警和管理的技術。為了能夠將IT告警事件區分出優先級,我們唯一的辦法是將分散或看起來不相關的組件(問題)聯系起來,以形成一個完整的系統。因為,只有從完整的監控系統中才能派生出“有意義的(可執行的)”的故障恢復流程。以北塔軟件BTIM為例,在操作界面中的對于圖標使用 “紅、棕、黃、綠、藍”不同的顏色,這代表5個告警等級,此告警等級可以代表不同的運維等級,它們是:緊急、高級、中級、低級、提示級。根據優先級的不同,對應的處理人員不同,處理流程也不同,響應的時間也是不同的。例如:SLA優先級較高的系統出現問題,IT運維部門需要在1小時之內解決問題,或者啟用備用系統。而相對級別較低的服務便可根據SLA協議約定的范圍內,如4小時、8小時內完成修復。

在北塔BTIM綜合運維系統中,可以把IT運維“那些事”(包括人員、資源、突發故障)分成不同級別和不同運維操作,以便有效的配置運維人力資源。正是因為監控系統與SLA協議的匹配,通過管理上對于不同故障等級采取不同的監管策略,才能實現了人力、財力成本投入不增加的情況下,起到高效管理的收益。

流程優化與人力優化是同時進行的,實現IT故障分級處理也是一次對IT運維人力資源配置的優化過程。例如,明確故障分級處理流程,便同時界定了運維人員對于故障的響應時間、職責、權限、義務和績效考核標準等等。事實上許多企業的實踐和北塔軟件的成功實施案例也證明,這樣可以減少IT運維操作的隨意性和混亂性,并能大大提高運維中的人力資源效率。使服務的每個環節均標準、可控,從而使服務質量能夠得到保證,避免了服務質量過分依賴技術工程師的個人能力和責任心,而使服務質量不可控和隨機性。

電話
客服
400-808-1020
客服
郵箱
service@sunsi.cn
青娱乐极品视觉盛宴