《中小銀行運維自動化課件》由會員分享,可在線閱讀,更多相關(guān)《中小銀行運維自動化課件(26頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,#,中小銀行運維自動化,管理,中小銀行運維自動化管理,1,目錄,2,運維管理中的操作控制難題,1,運維標準化自動化解決之道,2,作業(yè)任務(wù)精確控制,監(jiān)控巡檢準確定位,應(yīng)急處置自動調(diào)度,.,運維標準化自動化實施要點,3,目錄2運維管理中的操作控制難題1運維標準化自動化解決之道2作,2,運維管理總體目標,-,防范風險、優(yōu)質(zhì)服務(wù)、控制成本、系統(tǒng)建設(shè),穩(wěn)定運行,精確控制,資源管理,標準服務(wù),應(yīng)用整體監(jiān)控,事件處置管理,知識維護使用,變更發(fā)布管理,運維服務(wù)標準化,運行成本可計量,技術(shù)規(guī)范體系化,運維架構(gòu)規(guī)范化,制度體系層次
2、化,運維管理,作業(yè)調(diào)度管理,安裝規(guī)范核對,巡檢全程控制,配置信息管控,設(shè)備資源管理,運行數(shù)據(jù)采集,資源性能分析,容量總體規(guī)劃,數(shù)據(jù)資源管理,精確操控管理是運維管理的基礎(chǔ),也是科技服務(wù)質(zhì)量的保障,運維管理總體目標-防范風險、優(yōu)質(zhì)服務(wù)、控制成本、系統(tǒng)建設(shè)穩(wěn)定,3,作業(yè)管理難題,-,漏做錯做、任務(wù)異常、執(zhí)行風險、隱患排查,大型商業(yè)銀行每日批作業(yè)任務(wù)數(shù)已達數(shù)千個,中小型商業(yè)銀行也近幾百個,隨著業(yè)務(wù)復(fù)雜度及三方業(yè)務(wù)增加,任務(wù)數(shù)有增無減,并且變更頻率教高,,控制難度增加,;,多個系統(tǒng)、多個作業(yè)任務(wù)之間形成了非常復(fù)雜的邏輯關(guān)系,僅靠表格等手工管理方式,很難,降低任務(wù)執(zhí)行差錯率,;,針對特殊日期的批作業(yè)任務(wù)臨
3、時變更,很難精確控制,,一旦作業(yè)任務(wù)執(zhí)行失誤,影響范圍較大,很難處理,;,很難精確記錄作業(yè)任務(wù)執(zhí)行時長、時點、報錯等情況,無法統(tǒng)計分析,,發(fā)現(xiàn)作業(yè)任務(wù)執(zhí)行過程中的潛在風險,;,.,作業(yè)管理,作業(yè)管理難題-漏做錯做、任務(wù)異常、執(zhí)行風險、隱患排查大型商業(yè),4,作業(yè)管理手段,-,任務(wù)登記、變更控制、邏輯調(diào)度、過程記錄、隱患排查,任務(wù)定義?關(guān)系管控?技術(shù)標準?過程監(jiān)控?結(jié)果檢查?故障聯(lián)查?任務(wù)優(yōu)化?,作業(yè)管理,作業(yè)管理手段-任務(wù)登記、變更控制、邏輯調(diào)度、過程記錄、隱患排,5,運行監(jiān)控難題,-,預(yù)警、發(fā)現(xiàn)、定位、排查、隱患、預(yù)估、采集、資產(chǎn),監(jiān)控巡檢,關(guān)鍵業(yè)務(wù)交易出現(xiàn)問題,想排查故障原因,那么:,網(wǎng)絡(luò)環(huán)
4、境如何?,網(wǎng)絡(luò)報文正常?,系統(tǒng)資源有瓶頸嗎?,中間件有問題嗎?,數(shù)據(jù)庫有瓶頸?,應(yīng)用程序有報錯?,業(yè)務(wù)數(shù)據(jù)有問題嗎?,客戶請求端狀態(tài)如何?,運行監(jiān)控難題-預(yù)警、發(fā)現(xiàn)、定位、排查、隱患、預(yù)估、采集、資產(chǎn),6,運行監(jiān)控難題,-,預(yù)警、發(fā)現(xiàn)、定位、排查、隱患、預(yù)估、采集、資產(chǎn),監(jiān)控巡檢,20,13,年,3,月,17,日,監(jiān)控報警情況,-,缺乏網(wǎng)絡(luò)通路質(zhì)量檢測直接報警【,只有表象報警、無原因報警,】,15:37 ECIF,系統(tǒng):三條報警,ToFront 0307 error,、,ToFront 0307 error,服務(wù)測試異常,15:38,收單系統(tǒng):,03801 Success rate is lo
5、w!Pb751 BUSY,!,15:40,電子支付系統(tǒng):,EPAY thread is busy,15:44,個貸風險管理系統(tǒng):,plms4,和,plms2,、,plms5,、,plms6,阻塞線程數(shù)高、,15:44,信貸風險流程管理系統(tǒng):,weblogic,線程數(shù)高、,jdbc,連接池等待,15:45,操作風險管理系統(tǒng),session,鎖等待,15:45,圖前監(jiān)控采集機,10.1.7.15,報錯,15:46,驗印系統(tǒng),ssl,握手失敗,分析:,1,、從,15:37,到,15:46,,,10,分鐘內(nèi)統(tǒng)一監(jiān)控平臺共有,19,條應(yīng)用系統(tǒng),1,級告警,但因總行網(wǎng)絡(luò)環(huán)境監(jiān)控手段的缺失,未能第一時間發(fā)現(xiàn)
6、網(wǎng)絡(luò)線路質(zhì)量問題,因此,如何提早發(fā)現(xiàn)網(wǎng)絡(luò)通路問題,如何快速定位故障點,是故障早發(fā)現(xiàn)快解決的關(guān)鍵。,2013,年,3,月,17,日網(wǎng)絡(luò)通路典型故障,運行監(jiān)控難題-預(yù)警、發(fā)現(xiàn)、定位、排查、隱患、預(yù)估、采集、資產(chǎn),7,應(yīng)急難題,-,經(jīng)驗積累、工具標準化、邏輯關(guān)系控制、快速準確執(zhí)行?,應(yīng)急處置,應(yīng)急難題-經(jīng)驗積累、工具標準化、邏輯關(guān)系控制、快速準確執(zhí)行?,8,其它運維操作難題,-,數(shù)據(jù)全程管理、標準化變更發(fā)布、環(huán)境合規(guī)檢查、資產(chǎn)動態(tài)采集驗證,其它運維操作,其它運維操作難題-數(shù)據(jù)全程管理、標準化變更發(fā)布、環(huán)境合規(guī)檢查,9,中小銀行運維標準化自動化的意義-,人員、經(jīng)驗、風險、成本,實施運維操作自動化的關(guān)鍵
7、目標是什么?:,運維操作管理應(yīng)該細分為如下幾個領(lǐng)域,每個領(lǐng)域的具體目標是不同的:1)操作控制:準確調(diào)度;2)監(jiān)控診斷:固化知識;3)應(yīng)急處置:精確執(zhí)行;4)變更發(fā)布:控制差錯;5)規(guī)范檢查:準確核對;6)資產(chǎn)采集:信息準確;7)數(shù)據(jù)管理:全程控制;,如何有重點分步驟的實施運維操作自動化?:,根據(jù)細化后的運維操作流域及其管理目標,分別設(shè)計方案及標準,然后按照:首先標準化,其次自動化,最后制度化的路線進行實施;,運維操作自動化與哪些運維管理環(huán)節(jié)相關(guān)?,:,與一線建設(shè)、事件管理、應(yīng)急處置、數(shù)據(jù)管理、運維標準化等運維管理環(huán)節(jié)密切相關(guān),同時考慮人力配備、技術(shù)能力問題【短期引入】;,如何保持運維操作標準化
8、的持續(xù)性?:,通過問題日常跟蹤機制【日積月累】、運維操作維護工作流程【查缺補漏】、相關(guān)人員崗位規(guī)劃、以及工具持續(xù)優(yōu)化【實用原則】達成;,意義及思考,中小銀行運維標準化自動化的意義-人員、經(jīng)驗、風險、成本實施,10,目錄,11,運維管理中的操作控制難題,1,運維標準化自動化解決之道,2,運維自動化領(lǐng)域的細分,標準化是自動化的前提,管理體系是有效實現(xiàn)的基礎(chǔ),.,運維標準化自動化實施要點,3,目錄11運維管理中的操作控制難題1運維標準化自動化解決之道2,11,運維操作領(lǐng)域細分,-,領(lǐng)域不同,目標及要求則不同,實現(xiàn)策略與方法不同,操作控制:,常規(guī)操作任務(wù)的定義、調(diào)度、執(zhí)行、監(jiān)控、變更、維護、優(yōu)化,作業(yè)
9、調(diào)度:風險控制、運行評測、變更控制、配套檢查,操作控制:配置備份、環(huán)境比對、時點檢查、標準安裝,數(shù)據(jù)操作:系統(tǒng)備份、業(yè)務(wù)備份、恢復(fù)執(zhí)行、查詢流程、銷毀控制,監(jiān)控診斷:,報警判斷、故障定向、問題定位、二次采集、標準處置、資產(chǎn)核對,運行監(jiān)測:系統(tǒng)、應(yīng)用、數(shù)據(jù)、外聯(lián)環(huán)節(jié)的主動探測,運行數(shù)據(jù)采集,故障診斷:監(jiān)控集成、二次判斷、故障定位、現(xiàn)場采集,故障處置:處置執(zhí)行、狀態(tài)判斷、可用驗證、故障隔離,應(yīng)急處置:,應(yīng)急環(huán)境與條件自動檢測、應(yīng)急流程實現(xiàn)與維護、應(yīng)急操作自動執(zhí)行,變更發(fā)布:,變更評審關(guān)鍵點管理(非功能需求在線核對)、應(yīng)用發(fā)布自動化(標準)、系統(tǒng)變更自動化(規(guī)范),規(guī)范檢查:,監(jiān)管/管理規(guī)范核對、安
10、全自動檢測、配置信息自動核對、安裝規(guī)范,運維操作領(lǐng)域細分-領(lǐng)域不同,目標及要求則不同,實現(xiàn)策略與方法,12,運維操作管理的實現(xiàn):,1)標準化;2)工具化;3)自動化;4)制度化,運維操作管理的實現(xiàn):1)標準化;2)工具化;3)自動化;4),13,作業(yè)管理體系,-,制度細則、技術(shù)規(guī)范、監(jiān)測優(yōu)化,作業(yè)管理體系,作業(yè)管理體系-制度細則、技術(shù)規(guī)范、監(jiān)測優(yōu)化作業(yè)管理體系,14,應(yīng)急操作管理體系,-,自上而下、從頭落實、技術(shù)細化、持續(xù)改進,應(yīng)急管理體系,整體,預(yù)案,技術(shù),預(yù)案,系統(tǒng),手冊,技術(shù),演練,持續(xù),維護,識別業(yè)務(wù)風險,控制故障影響,指導(dǎo)整體工作,明確故障升級及處置整體流程,建立規(guī)范,整體了解關(guān)鍵業(yè)
11、務(wù)系統(tǒng)結(jié)構(gòu),梳理各類故障處置方法,以實戰(zhàn)出發(fā)設(shè)計演練場景,驗證操作有效性,將系統(tǒng)的變更、典型故障,及時維護到應(yīng)急管理手冊之中,技術(shù)操控管理重點范疇,業(yè)務(wù)影響分析,整體預(yù)案制定,事件定級,流程設(shè)計,系統(tǒng)結(jié)構(gòu)梳理,故障處置步驟,日常變更管理,演練場景設(shè)計,典型故障管理,實操與評測,分析建立設(shè)計實操評估,整體工作落實策略,應(yīng)急操作管理體系-自上而下、從頭落實、技術(shù)細化、持續(xù)改進應(yīng)急,15,監(jiān)控巡檢管理體系,-,認識對象、明確指標、操作測量、評估優(yōu)化,監(jiān)控管理體系,監(jiān)控巡檢管理體系-認識對象、明確指標、操作測量、評估優(yōu)化監(jiān)控,16,目錄,17,運維管理中的操作控制難題,1,運維標準化自動化解決之道,2
12、,運維操作經(jīng)驗的積累與獲取,識別階段工作的重點與難點,工具適用性選擇與人員調(diào)整,.,運維標準化自動化實施要點,3,目錄17運維管理中的操作控制難題1運維標準化自動化解決之道2,17,作業(yè)管理實施要點,-,識別作業(yè)管理關(guān)鍵點、分析關(guān)鍵問題分布實現(xiàn),作業(yè)管理實施,作業(yè)邏輯控制,:各個作業(yè)任務(wù)之間往往存在先后邏輯關(guān)系,尤其是跨應(yīng)用系統(tǒng)的邏輯管理需要嚴格控制,作業(yè)時間調(diào)度,:很多作業(yè)需要控制執(zhí)行日期及時間,如周一至周五某時刻做,每月最后工作日做等等,作業(yè)權(quán)限控制,:關(guān)鍵作業(yè)需要特定角色或者多人復(fù)核等,需要進行嚴格控制,作業(yè)自動執(zhí)行,:對于將要實施自動執(zhí)行的任務(wù),應(yīng)具備哪些條件、應(yīng)如何改造、如何控制風險
13、,作業(yè)臨時干預(yù),:在特殊情況下,如業(yè)務(wù)部門特殊要求,某些作業(yè)不按照計劃的時間等條件執(zhí)行,能否有效控制是關(guān)鍵,作業(yè)管理成體系,:對于作業(yè)管理中的人員、信息、流程等要素進行系統(tǒng)化管理,將作業(yè)的基礎(chǔ)信息、變更流程、人員工作等環(huán)節(jié)落實在一套管理制度及工具中,作業(yè)變更標準化,:嚴格控制作業(yè)任務(wù)在系統(tǒng)投產(chǎn)、節(jié)假日處理等情況下的變更及實施,作業(yè)管理實施要點-識別作業(yè)管理關(guān)鍵點、分析關(guān)鍵問題分布實現(xiàn)作,18,應(yīng)急處置面臨的復(fù)雜性,-,系統(tǒng)間關(guān)聯(lián)性高、同城異地災(zāi)備環(huán)境,應(yīng)急處置實施,應(yīng)急處置面臨的復(fù)雜性-系統(tǒng)間關(guān)聯(lián)性高、同城異地災(zāi)備環(huán)境應(yīng)急處,19,應(yīng)急處置操控實施,-,處置操作標準化、整體設(shè)計處置流程、自動操
14、控,應(yīng)急處置實施,應(yīng)急處置操控實施-處置操作標準化、整體設(shè)計處置流程、自動操控,20,監(jiān)測采集實施,-,識別監(jiān)測對象與指標、監(jiān)測采集過程標準化、實時自動監(jiān)測采集,監(jiān)測采集實施,監(jiān)測采集實施-識別監(jiān)測對象與指標、監(jiān)測采集過程標準化、實時自,21,監(jiān)測采集實施,-,運行數(shù)據(jù)采集目標確定、采集手段梳理、采集流程設(shè)計實現(xiàn),監(jiān)測采集實施,監(jiān)測采集實施-運行數(shù)據(jù)采集目標確定、采集手段梳理、采集流程設(shè),22,關(guān)鍵生產(chǎn)環(huán)節(jié)的可用性保障,-,梳理整體環(huán)境及鏈路、確認測試方法、自動測試,監(jiān)測采集實施,關(guān)鍵生產(chǎn)環(huán)節(jié)的可用性保障-梳理整體環(huán)境及鏈路、確認測試方法、,23,24,運維操作實現(xiàn)的關(guān)鍵因素,技術(shù)經(jīng)驗、人員能
15、力、工具實現(xiàn)、持續(xù)優(yōu)化,首先要將內(nèi)部日常運維工作逐步標準化規(guī)范化,并形成簡潔有效的運維管理過程,記錄每個故障、分析成因、跟蹤問題,技術(shù)經(jīng)驗、解決方案的日積月累。,外部技術(shù)經(jīng)驗及解決方案的引入,如網(wǎng)上資料、外包資源、項目資源等,。,技術(shù)經(jīng)驗,持續(xù)優(yōu)化,在實施運維管理的同時,必須考慮配套制度規(guī)范及細則的設(shè)計,以及技術(shù)標準的建立,同時形成不斷查缺補漏的工作機制,。,將運維操作領(lǐng)域進行細化分工,在系統(tǒng)設(shè)計、開發(fā)、投產(chǎn)、運行監(jiān)測、優(yōu)化改進等環(huán)節(jié)持續(xù)落實,。,24,工具實現(xiàn),首先要明確各運維領(lǐng)域細化目標及需求,基于此分析對于工具的詳細需求。,工具必須具備較強的二次開發(fā)能力,充分掌握核心代碼,以結(jié)果為導(dǎo)向整
16、體設(shè)計,不斷持續(xù)改進,運維管理分工的細化,由按系統(tǒng)分工模式,逐步調(diào)整為技術(shù)專業(yè)領(lǐng)域分工。,充分利用外包、駐場、項目資源,將上述人員能力,按照標準化模式,輸出成為知識、解決方案,形成自身人員能力。,人員能力,24運維操作實現(xiàn)的關(guān)鍵因素技術(shù)經(jīng)驗、人員能力、工具實現(xiàn)、持,運維自動化工具思考,-,不是簡單的流程化、復(fù)雜邏輯控制、實際處理難題.,任務(wù)的暫停、延遲、跳過、置換、提前:,任務(wù)的法定時間因子、前序條件因子、執(zhí)行令牌因子(臨時干預(yù))【任務(wù)暫停、任務(wù)略過、任務(wù)提前、臨時調(diào)換兩個任務(wù)的先后順序等功能支持的情況】,任務(wù)的時點報警、時長報警,:可給固定參考值閥值、也可根據(jù)平均時間動態(tài)計算閥值,任務(wù)流的暫停、終止,:向其它相關(guān)流程發(fā)送全局變量信息,多個任務(wù)流程直接的信息交互,:通過全局變量、消息隊列等實現(xiàn),對于已經(jīng)啟動的任務(wù)流中臨時增加任務(wù),:實例化后流程可動態(tài)修改,任務(wù)流的單步執(zhí)行,:可控制流程進行單步執(zhí)行,任務(wù)執(zhí)行失敗后的重做,:任務(wù)執(zhí)行失敗后,可選擇執(zhí)行錯誤任務(wù)進行糾錯、判斷、報警等,運維自動化工具思考-不是簡單的流程化、復(fù)雜邏輯控制、實際處理,25,感謝交流,感謝交流,26,