在大型企業(yè)中.數據資產是最具價值的無形資產.按類型可以分為結構化數據和非結構化數據。其中,非結構化數據是指無法用二維表結構表示的一種數據類型,主要包括辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻,視頻等。在企業(yè)信息化建設過程中產生的數據中,能夠采用關系型數據庫處理的結構化數據約占企業(yè)數據總量的20%。而其他80%的非結構化數據無法完全采用關系型數據庫來處理。科學管理和合理應用這些非結構化數據已經成為企業(yè)正確決策、增強核心競爭力的關鍵。Gartner在2006年6月的專項分析報告指出:“未來的十幾年,有效的信息管理非常重要,它將把那些不堪信息爆炸之重負的企業(yè)與那些主導全球經濟的企業(yè)區(qū)分開來”。Gartner、AIIM(美國圖形與信息協(xié)會)、維基百科等權威機構將企業(yè)非結構化數據管理定義為一套運用于獲取、管理、存儲、保管和發(fā)布內容以及文檔與組織、流程結合的戰(zhàn)略、方法和工具,它管理著企業(yè)全局范圍內各種形式的非結構化信息。
中國建設銀行、中國移動、英國BP石油公司、韓國伍里銀行、美國好事達保險公司對非結構化數據集中管理開展了相關工作,取得良好成效。同時,中央政府高度重視央企對非結構化數據的管理規(guī)范T作。2010年,由中央辦公廳、同務院辦公廳聯(lián)合下發(fā)《電子文件暫行管理辦法》(2009年39號文),明確要求大型企業(yè)電子文件管理需要滿足統(tǒng)一管理、全程管理、規(guī)范標準、便于利用、安全保密五大要求。
因此,為了能夠更大地獲取企業(yè)信息化建設投資收益.增強企業(yè)自身核心競爭力,必須強化對非結構化數據的管理和應用.研究企業(yè)級的非結構化數據管理平臺。
1、需求分析
根據對國內大型企業(yè)非結構化數據應用現(xiàn)狀的調研結果,結合AIIM、Garnter等權威機構對內容管理業(yè)務領域的研究,綜合分析出企業(yè)級非結構化數據管理平臺需要重點滿足非結構化數據集中存儲、統(tǒng)一管理、對外提供非結構化數據公共服務、業(yè)務應用系統(tǒng)統(tǒng)一接人這4個關鍵需求,全面覆蓋了內容獲取、內容存儲、內容管理、內容應用等4個業(yè)務領域。
1.1數據統(tǒng)一存儲需求
針對大型企業(yè)內各業(yè)務應用系統(tǒng)基本采用分散存儲各自非結構化數據的應用現(xiàn)狀,需要通過建設非結構化數據管理平臺,建立企業(yè)內部大數據量的非結構化數據存儲中心,同時需要通過制訂存儲優(yōu)化策略達到優(yōu)化存儲結構.提高存儲資源利用率,從而達到將企業(yè)內的非結構化數據進行集中存儲,簡化企業(yè)內部的IT架構、減少數據安全控制點,提升企業(yè)核心業(yè)務系統(tǒng)總體性能.為企業(yè)內部非結構化數據高效利用奠定基礎的目標。
1.2數據集中管理需求
非結構化數據管理平臺不僅是企業(yè)內非結構化數據的存儲中心.同時也是各項非結構化數據管理標準的制訂者與實踐者。通過制訂各種非結構化數據管理標準,解決目前在非結構化數據管理上所存在的主要問題,滿足企業(yè)內非結構化數據集中管理的需求。如通過建立內容元數據管理標準,統(tǒng)一企業(yè)內部內容元數據管理;通過建立數據全局訪問標準,統(tǒng)一各業(yè)務應用系統(tǒng)間數據的共享與交換;通過建立數據歸集標準.滿足業(yè)務應用系統(tǒng)存儲的數據實現(xiàn)歸集的要求。
總之.通過“標準制訂一產品開發(fā)一成果實施”的方式提高企業(yè)信息化建設中所產生的大量文件檔案.如規(guī)章制度、工程圖紙、合同票據、統(tǒng)計報表等各類非結構化數據的集約化管理水平,實現(xiàn)非結構化數據管理規(guī)范化、流程化、自動化。
1.3全生命周期管理需求
全生命周期管理是指內容的創(chuàng)建、申請、審核、生效、分發(fā)、退休到銷毀的全生命周期過程.全生命周期管理的最大價值是使內容的創(chuàng)建者和使用者能夠在全生命周期中協(xié)同參與、共同維護,創(chuàng)建者可以完整地控制和管理內容生命周期過程。
全生命周期管理的基礎是統(tǒng)一的版本管理、統(tǒng)一的存儲管理和統(tǒng)一的權限控制.實現(xiàn)方式一種是根據內容的狀態(tài)來控制全生命周期過程,另外一種是結合工作流.通過工作流和版本管理、存儲管理和權限管理的結合.實現(xiàn)更豐富多樣的全生命周期管理過程。
結合工作流技術.根據業(yè)務的需求.實現(xiàn)內容的全生命周期管理.實現(xiàn)數據在部門間的電子化無縫傳輸,實現(xiàn)數據在從創(chuàng)建、申請、審核、牛效、下發(fā)、退休和銷毀的自動化過程控制,實現(xiàn)使用者的自動化推送.提高工作效率和部門間溝通效率。
1.4統(tǒng)一對外服務需求
目前企業(yè)內各業(yè)務應用系統(tǒng)針對非結構化數據管理都具有不少重復的功能.如內容存儲、內容訪問、內容檢索等,造成“煙囪”現(xiàn)象嚴蕈.這不僅加大了企業(yè)的信息化建設費用,而且還使信息系統(tǒng)建設周期延長。作為專注服務于大型食業(yè)單位非結構化數據管理的基礎信息平臺.應能夠對外提供基本公共服務(包括內容存儲服務、內容訪問服務、內容管理服務以及運行監(jiān)控服務等)及各類工具(數據分析及挖掘工具等),能夠對企業(yè)內部相關業(yè)務應用系統(tǒng)提供統(tǒng)一的非結構化數據利用服務,進一步提升非結構化數據管理平臺的應用價值。
1.5多類型應用系統(tǒng)接入需求
目前,在大型企業(yè)內的業(yè)務系統(tǒng)存在業(yè)務邏輯多樣性、所采用的開發(fā)技術多樣性的特點.如基于SAP開發(fā)、基于J2EE開發(fā)等。為了能夠提升業(yè)務價值,平臺須具備對企業(yè)內多樣化的業(yè)務系統(tǒng)有序、規(guī)范接人的能力。為此,平臺需要為不同類型的業(yè)務應用系統(tǒng)提供整體接入解決方案以及與之配套的相關接人規(guī)范等。
1.6數據加工和決策支持需求
非結構數據的集中存儲,為數據深加工提供了基礎.需要平臺根據決策需要.對數據進行文本分析、加工挖掘和信息抽取等技術手段.分析數據間的關聯(lián)性等,最終提供全文檢索和決策支持服務。非結構化平臺與結構化數據中心的數據倉庫產生的決策數據進行結合.并根據決策和日常辦公需要。生成各種輔助性的文檔(數據源來自于各個數據中心),最終提高公司的工作效率。非結構化數據管理平臺在滿足以上關鍵性需求后,平臺將真正成為企業(yè)的非結構化數據存儲的數據中心,真正成為企業(yè)相關聯(lián)業(yè)務系統(tǒng)共享非結構化數據的通道.真正成為企業(yè)引入國際先進內容管理技術.提供創(chuàng)新性文檔增值服務(如各種文檔挖掘與決策支持工具)的容器。
2、建設目標
2.1總體目標
企業(yè)級非結構化數據管理平臺作為是企業(yè)信息化基礎設施的重要組成部分。其建設總體目標如下。
1)非結構化數據管理平臺是將大型企業(yè)所有包含非結構化數據的業(yè)務應用系統(tǒng)進行統(tǒng)一集成整合的數據中心.對各業(yè)務應用系統(tǒng)上傳的所有非結構化數據進行集中存儲、流轉、管理以及綜合應用。
2)為大型企業(yè)其他業(yè)務應用系統(tǒng)提供公共服務及工具,實現(xiàn)非結構化數據全生命周期管理和綜合利用,保證非結構化數據全方位安全。
3)實現(xiàn)非結構化數據的規(guī)范化、流程化、自動化,提供業(yè)務深度融合、智能決策支持、離線數據安全等服務,充分實現(xiàn)企業(yè)信息價值.全面服務企業(yè)發(fā)展戰(zhàn)略.為智能分析與決策支持提供支撐。
2.2演進路線
根據總體建設目標.以非結構化數據在企業(yè)效用提升為主線,企業(yè)級非結構化數據管理平臺按照3個階段建設、分步完成進行演進。
1)第1階段(集中化管理階段):實現(xiàn)企業(yè)內非結構化數據集中化管理。制定統(tǒng)一標準、完成平臺部署、初步數據利用、提供基本的非結構化數據服務。
2)第2階段(業(yè)務融合階段):實現(xiàn)各業(yè)務應用非結構化數據融合,全面集中管理、初步業(yè)務融合、提供初步的內容加工挖掘和深化高級服務。
3)第3階段(決策支持階段):提供非結構化數據高級應用服務.業(yè)務深度融合、智能決策支持、離線數據安全等服務.使非結構化數據管理平臺真正成為公司信息化基礎設施的重要組成部分。
3、平臺架構設計
3.1設計原則
企業(yè)級非結構化數據管理平臺是信息化基礎設施.作為非結構化數據集中存儲、管理和應用的中心.在企業(yè)信息化建設過程中將起著至關重要的作用,平臺設計應充分考慮并結合企業(yè)非結構化數據管理現(xiàn)狀和未來發(fā)展趨勢。
1)可擴展性:優(yōu)良的體系結構設計對于系統(tǒng)是否能夠適應將來新業(yè)務的發(fā)展至關重要。在滿足現(xiàn)有非結構化數據管理需求的基礎上.系統(tǒng)應當有充分的可擴展性,以滿足未來的業(yè)務發(fā)展。因此在方案設計中.必須考慮到應用逐步豐富、系統(tǒng)不斷擴展的要求.以形成一個易于管理、可持續(xù)發(fā)展的體系結構。同時將應用系統(tǒng)進行完全模塊化的設計,使系統(tǒng)具有良好的擴展性和高效性。
2)先進性:設計方案中采用市場領先并且成熟的技術.使非結構化數據管理平臺具備國內同業(yè)領先的地位。
3)安全性:設計方案充分考慮到網絡環(huán)境的安全性需求.防范國際互連網上的非法用戶的侵入,防止合法用戶對重要的不宜公開的數據的侵入。
4)標準性和開放性:設計方案充分考慮系統(tǒng)的標準性和開放性.盡可能地遵循開放的標準。開放的系統(tǒng)平臺便于將來擴展新的功能及與第三方的接口。
5)系統(tǒng)集成性:預留與其他系統(tǒng)間的接口.增加適配層隔離不同系統(tǒng),降低系統(tǒng)集成的風險。
3.2業(yè)務架構
業(yè)務架構描述平臺的業(yè)務目標。根據中央辦公廳2009發(fā)布的《電子文件暫行管理辦法》(2009年39號文)以及非結構化數據管理平臺的關鍵業(yè)務需求.設計如圖1所示的非結構化數據管理平臺業(yè)務架構。
非結構化數據管理平臺對企業(yè)非結構化數據管理的業(yè)務能力至下而上劃分為:統(tǒng)一存儲、統(tǒng)一標準、統(tǒng)一管理、統(tǒng)一利用、統(tǒng)一運維。
1)統(tǒng)一存儲:是指平臺具有能將非結構化數據進行集中存儲的能力。該業(yè)務能力使平臺能夠對企業(yè)內大數據量的非結構化數據進行集中存儲及存儲優(yōu)化能力,這是非結構化數據管理平臺的基本業(yè)務能力。
2)統(tǒng)一標準:是指平臺作為企業(yè)信息基礎設施的重要組成部分.必須擔負企業(yè)內各項非結構化數據管理及應用標準的制訂者與實踐者的角色.通過制訂各類且具可行性的非結構化數據的管理和利用標準。如平臺管理辦法、元數據標準、數據歸集標準、業(yè)務應用接入標準等,指導平臺各項建設工作開展。
3)統(tǒng)一管理:是指平臺提供對企業(yè)內非結構化數據統(tǒng)一管理的能力.如非結構化數據的全生命周期管理、數字資產管理、數據歸集管理以及文檔管理等。
4)統(tǒng)一利用:是指平臺提供內容訪問服務、內容處理服務、安全管控服務、高級應用服務.在實現(xiàn)非結構化數據統(tǒng)一存儲與統(tǒng)一管理的基礎上,實現(xiàn)非結構化數據安全、高效、增值利用.這是平臺建設的最主要目的.這部分業(yè)務能力可細分如下。①提供對各個接人平臺的業(yè)務應用對存儲在平臺的非結構化數據統(tǒng)一訪問的能力,如基于平臺實現(xiàn)跨庫查詢、在線瀏覽、在線編輯等方式。②提供一系列具有全局性的非結構化數據應用工具.如支持跨業(yè)務應用系統(tǒng)全文檢索、數據全局訪問等.從而打破業(yè)務系統(tǒng)間的系統(tǒng)界限與地域界限.使各類用戶能夠完備、實時地獲取到相關數據.提高工作效率。③提供數據梳理及元數據管理工具,抽取、分析、展現(xiàn)公司非結構化數據的全局視圖.提高企業(yè)領導對非結構化數據的全局駕馭能力。(薊提供數據分析及挖掘工具,如文檔聚類分析、文檔專題分析等.實現(xiàn)非結構化數據增值應用,促進業(yè)務運行質量的提升。
5)統(tǒng)一運維:是指平臺提供各種能夠支撐平臺運維的工具(如健康度分析工具、集成管理工具等)來實現(xiàn)統(tǒng)一運維。
3.3應用槳構
應用架構描述非結構化數據管理平臺的功能邏輯,描述平臺各項功能間的層級關系.是業(yè)務架構的技術表現(xiàn)。非結構化數據管理平臺的應用架構如圖2所示。
非結構化數據管理平臺應用架構劃分為4個組成部分,分別是非結構化數據管理平臺服務器(UDS-server)、非結構化數據管理系統(tǒng)(UDS-Administrator)、非結構化數據管理平臺配套工具(UDS-Tools)、非結構化數據管理平臺開發(fā)工具包(UDS-SDK)。
1)UDS-Server:是非結構化數據管理服務器。為UDS-Administrator、UDS-SDK、UDS-Tools提供系統(tǒng)級服務.包括提供內容訪問服務、內容傳輸服務、內容處理服務以及內容存儲服務等功能。
2)UDS-Admini3trator:是非結構化數據管理系統(tǒng),是平臺的后臺管理模塊.主要包括平臺管理、應用管理、運行監(jiān)控、集成管理與統(tǒng)計報表。
3)UDS-Tools:是非結構化數據管理平臺配套工具,提供數據服務工具.如歷史數據遷移工具。
4)UDS-SDK:是非結構化數據服務開發(fā)工具包,提供非結構化數據服務開發(fā)工具,目前主要是面向業(yè)務系統(tǒng)接入提供開發(fā)工具包。主要包括HTTP接口、Web Services接口、嵌入式控件接口、文件異步上傳接口4種方式。
平臺的應用架構設計體現(xiàn)了平臺以提供非結構化數據服務為中心.將人、信息、應用和流程端到端動態(tài)整合的一體化基礎信息平臺特征.平臺的四大組件之間是松散耦合的.一個模塊的變化(功能、數據、過程、技術環(huán)境等)不會影響到其他模塊變化.確保了系統(tǒng)具有良好的可擴展性。
3.4集成架構
非結構化數據管理平臺的集成對象包括公司內的其他一體化信息平臺以及業(yè)務應用系統(tǒng)2個部分.架構設計如圖3所示。
1)與現(xiàn)有一體化平臺的集成,
如可以統(tǒng)一消息平臺、統(tǒng)一權限平臺以及企業(yè)門戶。
統(tǒng)一消息平臺集成:在非結構化數據管理平臺中有運行監(jiān)控模塊.可以捕獲平臺運行的狀態(tài)及業(yè)務系統(tǒng)接人的信息,通過集成統(tǒng)一消息組件,將信息推送到統(tǒng)一消息平臺進行展示。
統(tǒng)一權限平臺:通過集成統(tǒng)一權限.實現(xiàn)對資源的統(tǒng)一權限的認證。
企業(yè)門戶:通過企業(yè)門戶可以將平臺特有的信息進行展現(xiàn)。
2)為業(yè)務系統(tǒng)接入提供集成。業(yè)務系統(tǒng)和平臺的集成包括非結構化數據、結構化數據(公共元數據、業(yè)務元數據),業(yè)務系統(tǒng)通過請求接口服務實現(xiàn)非結構化數據的統(tǒng)一存儲、統(tǒng)一訪問、數據共享、數據交互等需求。平臺為業(yè)務系統(tǒng)接人提供多樣的接入方式.有數據流集成方式(包含HTTP/HTTPS、Web Service、JavaAPI、C#API等)和頁面集成方式(包含嵌入式組件、JS包)。業(yè)務系統(tǒng)可根據不同的業(yè)務需求,選擇對應的接口方式.調用平臺提供的服務.以滿足業(yè)務需求。
3.5技術架構
技術架構是基于功能和技術的需求.描述系統(tǒng)內模塊間的關系以及與其他系統(tǒng)間的相互關系,同時描述平臺開發(fā)、部署、運行所需的技術組件.非結構化數據管理平臺技術架構設計如圖4所示。
非結構化數據管理平臺技術架構分層及各層功能說明如下。
1)數據存儲層:對外提供數據存儲服務,實現(xiàn)業(yè)務架構設計中統(tǒng)一存儲的目標.該層主要由內容管理組件、分布式文件系統(tǒng)、存儲設備(SAN、NAS等)組成,該層對外提供對外存儲接口,支撐大數據量非結構化數據在平臺的物理存儲。
2)邏輯資源層:用于各業(yè)務應用系統(tǒng)在非結構化數據平臺的存儲映射.支撐大數據量非結構化數據在平臺上的邏輯存儲。
3)集成服務層:對外提供非結構化數據全生命周期管理服務.實現(xiàn)業(yè)務架構設計中統(tǒng)一標準、統(tǒng)一管理和統(tǒng)一運維的目標.該層主要由統(tǒng)一數據目錄(業(yè)務元數據).用戶與權限管理、運行監(jiān)控、運行策略配置、服務集成框架與服務插件組成。該層還能和企業(yè)內的業(yè)務流程管理、業(yè)務流程監(jiān)控、企業(yè)服務注冊中心、企業(yè)服務總線等一體化平臺集成服務層進行整合,對外提供統(tǒng)一服務。
4)業(yè)務系統(tǒng)層:業(yè)務應用系統(tǒng)既是非結構化數據資源的生產者,又是數據資源和數據服務的消費者。平臺對業(yè)務系統(tǒng)提供各種非結構化數據訪問和利用服務集中在該層.該層集中體現(xiàn)平臺對業(yè)務應用系統(tǒng)提供的對非結構化數據統(tǒng)一訪問和利用的業(yè)務能力。
5)信息展現(xiàn)層:即用戶界面層.主要是用于非結構化數據管理平臺與用戶的交互.并根據用戶發(fā)出的平臺請求,展現(xiàn)交互結果。平臺基于B/S多層分布式技術架構開發(fā)。在內容管理組件采用Documetum,它是國際領先的內容管理軟件提供商EMC公司的核心產品,性能高,穩(wěn)定性好。由于整個平臺基于SOA技術開發(fā),提供的多樣化的內容服務接口,可使業(yè)務系統(tǒng)通過企業(yè)服務總線來使用平臺提供的非結構化數據服務,具有很強的靈活性。
3.6部署架構
為了使非結構化數據管理平臺能夠在大型企業(yè)業(yè)得以正確部署.能夠充分利用公司現(xiàn)有信息網絡資源.降低實施推廣和運行維護成本.特設計如圖5所示的平臺部署架構。
1)邏輯節(jié)點1:用于部署非結構化數據管理平臺的管理界面程序及目錄用戶同步程序,此節(jié)點以web應用的形式進行部署。
2)邏輯節(jié)點2:用于部署全文搜索服務.主要包含數據抓取、索引管理、數據查詢等服務,此節(jié)點以Web的形式進行部署。
3)邏輯節(jié)點3:用于部署文件轉換、信息抽取服務,主要是提供各種文檔格式轉換、圖片格式轉換及文件信息抽取等。
4)邏輯節(jié)點4:用于部署平臺非結構化數據縱向交換的服務.為業(yè)務應用提供網省與總部之間數據的縱向交換、分發(fā)、共享等功能,主要以web的形式進行部署。
5)邏輯節(jié)點5:用于部署內容管理服務。提供對虛擬對象管理、版本管理、元數據管理等內容管理。
6)邏輯節(jié)點6:用于存儲結構化數據的服務器。
7)邏輯節(jié)點7:用于部署平臺為業(yè)務應用系統(tǒng)提供接人接口的服務器,接口主要以Web Sevice、HTTP/HTTPS、組件等形式,以Web的形式進行部署。
8)邏輯節(jié)點8:用于部署實現(xiàn)系統(tǒng)安全控制的服務器。上述各個邏輯部署節(jié)點,在并發(fā)壓力小的情況下能將以Web服務形式存在的非結構化數據服務歸并到一臺Web應用服務器上。在并發(fā)壓力大時,各邏輯節(jié)點又可以獨立部署.從而最有效地提升部署平臺所需的各軟硬件資源的利用率。
平臺單點部署分為以下部分(見圖6)。
1)數據庫服務器集群:在Oracle 10g數據庫服務器的RAC平臺上新建非結構化的實例.主要是用于內容服務器的元數據管理及結構化數據管理,數據庫存儲采用SAN存儲。
2)內容管理服務器集群:在Linux平臺上安裝Documentum6.5,主要是內容管理服務及分布式緩存管理,并實現(xiàn)集群,可配置為積極主動(Active-Active)的高可用性模式,內容服務器存儲采用SAN存儲。
3)擴展服務器單機:在Windows2008企業(yè)版(32位)上安裝UDS擴展服務所需要的軟件及組件.主要是為應用提供文件轉換、文件信息抽取等服務。
4)應用服務器I/O服務器集群:在Linux平臺上安裝WebLogic9.2,并實現(xiàn)集群,通過硬件負載均衡設備實現(xiàn)負載分擔。在Linux平臺上安裝分布式文件系統(tǒng)服務端,主要用于實現(xiàn)分布式共享SAN存儲,避免存儲的單點故障及提高存儲性能,為保證穩(wěn)定性,需要進行集群部署。
5)存儲區(qū):采用SAN的存儲結構,既滿足了數據庫存儲的高效性,叉滿足了文件存儲的共享性和擴展性;備份設備使用虛擬磁帶庫和物理磁帶庫結合的方式,實現(xiàn)“磁盤到磁盤到磁帶”方式的二級備份。
4、結語
根據國家電網公司信息化SG—ERP建設規(guī)劃.非結構化數據管理平臺與結構化數據中心、海量歷史/準實時數據管理平臺、地理空間數據管理平臺組成國家電網公司企業(yè)級數據中心平臺。
圖7~圖9是非結構化數據管理平臺的用戶界面。根據演進路線,2011年國家電網公司建成了企業(yè)級非結構化數據管理平臺,制訂了《非結構化數據平臺管理辦法》、《非結構化數據管理平臺業(yè)務應用接人規(guī)范》等與平臺相配套的管理和規(guī)范.設計、驗證了基于各類不同開發(fā)平臺(包括SAP、Ariba等)的業(yè)務應用系統(tǒng)接入非結構化數據管理平臺技術,完成了試點建設,實現(xiàn)了檔案管理、知識管理、綜合管理等10多個業(yè)務系統(tǒng)接人,初步達到集中化管理階段階段建設目標。
轉載請注明出處:拓步ERP資訊網http://m.kaqidy.com/