數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)詳述

上傳人:ui****22 文檔編號(hào):253329759 上傳時(shí)間:2024-12-11 格式:PPTX 頁(yè)數(shù):64 大?。?14.72KB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)詳述_第1頁(yè)
第1頁(yè) / 共64頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)詳述_第2頁(yè)
第2頁(yè) / 共64頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)詳述_第3頁(yè)
第3頁(yè) / 共64頁(yè)

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)詳述》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)詳述(64頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),,*,*,,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù),,,數(shù)據(jù)倉(cāng)庫(kù)-,數(shù),數(shù)據(jù)挖掘的,有,有效平臺(tái),數(shù)據(jù)倉(cāng)庫(kù)中,的,的數(shù)據(jù)清理,和,和數(shù)據(jù)集成,,,,是數(shù)據(jù)挖,掘,掘的重要數(shù),據(jù),據(jù)預(yù)處理步,驟,驟,數(shù)據(jù)倉(cāng)庫(kù)提,供,供OLAP,工,工具,可用,于,于不同粒度,的,的數(shù)據(jù)分析,很多數(shù)

2、據(jù)挖,掘,掘功能都可,以,以和OLAP操作集成,,,,以提供不,同,同概念層上,的,的知識(shí)發(fā)現(xiàn),分類(lèi),預(yù)測(cè),關(guān)聯(lián),聚集,,,什么是數(shù)據(jù),倉(cāng),倉(cāng)庫(kù)?,數(shù)據(jù)倉(cāng)庫(kù)的,定,定義很多,,但,但卻很難有,一,一種嚴(yán)格的,定,定義,它是一個(gè)提,供,供決策支持,功,功能的數(shù)據(jù),庫(kù),庫(kù),它與公,司,司的操作數(shù),據(jù),據(jù)庫(kù)分開(kāi)維,護(hù),護(hù)。,為統(tǒng)一的歷,史,史數(shù)據(jù)分析,提,提供堅(jiān)實(shí)的,平,平臺(tái),對(duì)信,息,息處理提供,支,支持,數(shù)據(jù)倉(cāng)庫(kù)區(qū),別,別于其他數(shù),據(jù),據(jù)存儲(chǔ)系統(tǒng),“數(shù)據(jù)倉(cāng)庫(kù),是,是一個(gè)面向,主,主題的、集,成,成的、隨時(shí),間,間而變化的,、,、不容易丟,失,失的數(shù)據(jù)集,合,合,支持管,理,理部門(mén)的決,策,策過(guò)程

3、.”,—,—W. H. Inmon,,,數(shù)據(jù)倉(cāng)庫(kù)關(guān),鍵,鍵特征一—,—,—面向主題,面向主題,,是,是數(shù)據(jù)倉(cāng)庫(kù),顯,顯著區(qū)別于,關(guān),關(guān)系數(shù)據(jù)庫(kù),系,系統(tǒng)的一個(gè),特,特征,圍繞一些主,題,題,如顧客,、,、供應(yīng)商、,產(chǎn),產(chǎn)品等,關(guān)注決策者,的,的數(shù)據(jù)建模,與,與分析,而,不,不是集中于,組,組織機(jī)構(gòu)的,日,日常操作和,事,事務(wù)處理。,排除對(duì)于決,策,策無(wú)用的數(shù),據(jù),據(jù),提供特,定,定主題的簡(jiǎn),明,明視圖。,,,數(shù)據(jù)倉(cāng)庫(kù)關(guān),鍵,鍵特征二—,—,—數(shù)據(jù)集成,一個(gè)數(shù)據(jù)倉(cāng),庫(kù),庫(kù)是通過(guò)集,成,成多個(gè)異種,數(shù),數(shù)據(jù)源來(lái)構(gòu),造,造的。,關(guān)系數(shù)據(jù)庫(kù),,,,一般文件,,,,,聯(lián)機(jī)事務(wù)處,理,理記錄,使用數(shù)據(jù)清,

4、理,理和數(shù)據(jù)集,成,成技術(shù)。,確保命名約,定,定、編碼結(jié),構(gòu),構(gòu)、屬性度,量,量等的一致,性,性。,當(dāng)數(shù)據(jù)被移,到,到數(shù)據(jù)倉(cāng)庫(kù),時(shí),時(shí),它們要,經(jīng),經(jīng)過(guò)轉(zhuǎn)化。,,,,數(shù)據(jù)倉(cāng)庫(kù)關(guān),鍵,鍵特征三—,—,—隨時(shí)間而,變,變化,數(shù)據(jù)倉(cāng)庫(kù)是從,歷,歷史的角度提,供,供信息,數(shù)據(jù)倉(cāng)庫(kù)的時(shí),間,間范圍比操作,數(shù),數(shù)據(jù)庫(kù)系統(tǒng)要,長(zhǎng),長(zhǎng)的多。,操作數(shù)據(jù)庫(kù)系,統(tǒng),統(tǒng): 主要保,存,存當(dāng)前數(shù)據(jù)。,數(shù)據(jù)倉(cāng)庫(kù):從,歷,歷史的角度提,供,供信息(比如,過(guò),過(guò)去 5-10 年),數(shù)據(jù)倉(cāng)庫(kù)中的,每,每一個(gè)關(guān)鍵結(jié),構(gòu),構(gòu)都隱式或顯,式,式地包含時(shí)間,元,元素,而操作,數(shù),數(shù)據(jù)庫(kù)中的關(guān),鍵,鍵結(jié)構(gòu)可能就,不,不包括時(shí)間元,素,素

5、。,,,數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵,特,特征四——數(shù),據(jù),據(jù)不易丟失,盡管數(shù)據(jù)倉(cāng)庫(kù),中,中的數(shù)據(jù)來(lái)自,于,于操作數(shù)據(jù)庫(kù),,,,但他們卻是,在,在物理上分離,保,保存的。,操作數(shù)據(jù)庫(kù)的,更,更新操作不會(huì),出,出現(xiàn)在數(shù)據(jù)倉(cāng),庫(kù),庫(kù)環(huán)境下。,不需要事務(wù)處,理,理,恢復(fù),和,并,并發(fā)控制等機(jī),制,制,只需要兩種數(shù),據(jù),據(jù)訪問(wèn):,數(shù)據(jù)的初始轉(zhuǎn),載,載和數(shù)據(jù)訪問(wèn),(,(讀操作),,,,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu),建,建與使用,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu),建,建包括一系列,的,的數(shù)據(jù)預(yù)處理,過(guò),過(guò)程,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)倉(cāng)庫(kù)的使,用,用熱點(diǎn)是商業(yè),決,決策行為,例,如,如:,增加客戶聚焦,產(chǎn)品重定位,尋找獲利點(diǎn),客戶關(guān)系管理,,,數(shù)據(jù)

6、倉(cāng)庫(kù)與異,種,種數(shù)據(jù)庫(kù)集成,異種數(shù)據(jù)庫(kù)的,集,集成方法,傳統(tǒng)的異種數(shù),據(jù),據(jù)庫(kù)集成:(,查詢驅(qū)動(dòng),),在多個(gè)異種數(shù),據(jù),據(jù)庫(kù)上建立包,裝,裝程序(wrappers,),)和中介程序,(,(mediators ),查詢驅(qū)動(dòng)方法,—,——當(dāng)從客戶,端,端傳過(guò)來(lái)一個(gè),查,查詢時(shí),首先,使,使用元數(shù)據(jù)字,典,典將查詢轉(zhuǎn)換,成,成相應(yīng)異種數(shù),據(jù),據(jù)庫(kù)上的查詢,;,;然后,將這,些,些查詢映射和,發(fā),發(fā)送到局部查,詢,詢處理器,數(shù)據(jù)倉(cāng)庫(kù):,(,(,更新驅(qū)動(dòng),),將來(lái)自多個(gè)異,種,種源的信息預(yù),先,先集成,并存,儲(chǔ),儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù),中,中,供直接查,詢,詢和分析,,,查詢驅(qū)動(dòng)方法,和,和更新驅(qū)動(dòng)方,法,法的比

7、較,查詢驅(qū)動(dòng)的方,法,法,需要負(fù)責(zé)的信,息,息過(guò)濾和集成,處,處理,與局部數(shù)據(jù)源,上,上的處理競(jìng)爭(zhēng),資,資源,對(duì)于頻繁的查,詢,詢,尤其是涉,及,及聚集(匯總,),)操作的查詢,,,,開(kāi)銷(xiāo)很大(,決,決策支持中常,見(jiàn),見(jiàn)的查詢形式,),),更新驅(qū)動(dòng)的方,法,法(帶來(lái)高性,能,能),數(shù)據(jù)經(jīng)預(yù)處理,后,后單獨(dú)存儲(chǔ),,對(duì),對(duì)聚集操作提,供,供良好支持,不影響局部數(shù),據(jù),據(jù)源上的處理,集成歷史信息,,,,支持負(fù)責(zé)的,多,多維查詢,,,數(shù)據(jù)倉(cāng)庫(kù)與操,作,作數(shù)據(jù)庫(kù)系統(tǒng),操作數(shù)據(jù)庫(kù)系,統(tǒng),統(tǒng)的主要任務(wù),是,是聯(lián)機(jī)事務(wù)處,理,理OLTP,日常操作:,購(gòu),購(gòu)買(mǎi),庫(kù)存,,銀,銀行,制造,,工,工資,注冊(cè),,記,記

8、帳等,數(shù)據(jù)倉(cāng)庫(kù)的主,要,要任務(wù)是聯(lián)機(jī),分,分析處理OLAP,數(shù)據(jù)分析和決,策,策支持,支持,以,以不同的形式,顯,顯示數(shù)據(jù)以滿,足,足不同的用戶,需,需要,,,OLAP VS. OLTP (1),用戶和系統(tǒng)的,面,面向性,面向顧客(事,務(wù),務(wù)) VS.,面,面向市場(chǎng)(,分,分析),數(shù)據(jù)內(nèi)容,當(dāng)前的、詳細(xì),的,的數(shù)據(jù) VS. 歷史的、,匯,匯總的數(shù)據(jù),數(shù)據(jù)庫(kù)設(shè)計(jì),實(shí)體-聯(lián)系模,型,型(ER)和,面,面向應(yīng)用的數(shù),據(jù),據(jù)庫(kù)設(shè)計(jì) VS. 星型/,雪,雪花模型和面,向,向主題的數(shù)據(jù),庫(kù),庫(kù)設(shè)計(jì),,,OLAP VS. OLTP (2),數(shù)據(jù)視圖,當(dāng)前的、企業(yè),內(nèi),內(nèi)部的數(shù)據(jù)VS. 經(jīng)過(guò),演,演化的、集成

9、,的,的數(shù)據(jù),訪問(wèn)模式,事務(wù)操作 VS. 只讀查,詢,詢(但很多是,復(fù),復(fù)雜的查詢),任務(wù)單位,簡(jiǎn)短的事務(wù)VS. 復(fù)雜,的,的查詢,訪問(wèn)數(shù)據(jù)量,數(shù)十個(gè) VS. 數(shù)百萬(wàn)個(gè),,,OLAP VS. OLTP (3),用戶數(shù),數(shù)千個(gè) VS. 數(shù)百個(gè),數(shù)據(jù)庫(kù)規(guī)模,100M-數(shù)GB VS.100GB-數(shù)TB,設(shè)計(jì)優(yōu)先性,高性能、高可,用,用性 VS.,高,高靈活性、,端,端點(diǎn)用戶自治,度量,事務(wù)吞吐量VS. 查詢,吞,吞吐量、響應(yīng),時(shí),時(shí)間,更多的區(qū)別見(jiàn),教,教科書(shū)P28,,,,表2-1,,,為什么需要一,個(gè),個(gè)分離的數(shù)據(jù),倉(cāng),倉(cāng)庫(kù)?,提高兩個(gè)系統(tǒng),的,的性能,DBMS是,為,為OLTP,而,而設(shè)計(jì)的:,

10、存,存儲(chǔ)方式,,索,索引, 并,發(fā),發(fā)控制,,恢,恢復(fù),數(shù)據(jù)倉(cāng)庫(kù)是,為,為OLAP,而,而設(shè)計(jì):復(fù),雜,雜的 OLAP查詢,,多,多維視圖,,,,匯總,不同的功能,和,和不同的數(shù),據(jù),據(jù):,歷史數(shù)據(jù):,決,決策支持,需,需要?dú)v史數(shù),據(jù),據(jù),而這些,數(shù),數(shù)據(jù)在操作,數(shù),數(shù)據(jù)庫(kù)中一,般,般不會(huì)去維,護(hù),護(hù),數(shù)據(jù)匯總:,決,決策支持需,要,要將來(lái)自異,種,種源的數(shù)據(jù),統(tǒng),統(tǒng)一(如聚,集,集和匯總),數(shù)據(jù)質(zhì)量:,不,不同的源,使,使用不一致,的,的數(shù)據(jù)表示,、,、編碼和格,式,式,對(duì)這些,數(shù),數(shù)據(jù)進(jìn)行有,效,效的分析需,要,要將他們轉(zhuǎn),化,化后進(jìn)行集,成,成,,,多維數(shù)據(jù)模,型,型 (1),數(shù)據(jù)倉(cāng)庫(kù)和

11、OLAP工,具,具基于多維,數(shù),數(shù)據(jù)模型,在多維數(shù)據(jù),模,模型中,數(shù),據(jù),據(jù)以數(shù)據(jù)立,方,方體(data cube)的形,式,式存在,數(shù)據(jù)立方體,允許以多維,數(shù),數(shù)據(jù)建模和,觀,觀察。它由,維,和,事實(shí),定義,維,是關(guān)于一個(gè),組,組織想要記,錄,錄的視角或,觀,觀點(diǎn)。每個(gè),維,維都有一個(gè),表,表與之相關(guān),聯(lián),聯(lián),稱(chēng)為,維表,。,多維數(shù)據(jù)模,型,型圍繞中心,主,主題組織,,該,該主題用,事實(shí)表,表示,事實(shí)表,包括事實(shí)的,名,名稱(chēng)或度量,以,以及每個(gè)相,關(guān),關(guān)維表的關(guān),鍵,鍵字,事實(shí),指的是一些,數(shù),數(shù)字度量,,,多維數(shù)據(jù)模,型,型 (2),—,——示例,,,time_key,day,day_of

12、_the_week,month,quarter,year,time,維,維表,location_key,street,city,state_or_province,country,location 事,實(shí),實(shí)表,Sales,事,事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,度量,item_key,item_name,brand,type,supplier_type,item,維,維表,branch_key,branch_name,branch_type,branch 維

13、表,,,多維數(shù)據(jù)模,型,型 (3),在數(shù)據(jù)倉(cāng)庫(kù),中,中,數(shù)據(jù)立,方,方體是n-D的(n維,),),(關(guān)系表和,電,電子表格是,幾,幾維的?),示例,AllElectronics的,銷(xiāo),銷(xiāo)售數(shù)據(jù)按,維,維time, item的2-D,視,視圖 (P30, 表2-2),AllElectronics的,銷(xiāo),銷(xiāo)售數(shù)據(jù)按,維,維time, item和location,的,的3-D視,圖,圖 (P30, 表2-3),AllElectronics的,銷(xiāo),銷(xiāo)售數(shù)據(jù)按,維,維time, item和location,的,的3-D視,圖,圖的3-D,數(shù),數(shù)據(jù)立方體,表,表示 (P31, 圖2-1),銷(xiāo)售數(shù)據(jù)的4-D

14、立方,體,體表示 (P31,,圖,圖2-2),多維數(shù)據(jù)模,型,型為不同角,度,度上的數(shù)據(jù),建,建模和觀察,提,提供了一個(gè),良,良好的基礎(chǔ),,,多維數(shù)據(jù)模,型,型 (4),在數(shù)據(jù)倉(cāng)庫(kù),的,的研究文獻(xiàn),中,中,一個(gè)n,維,維的數(shù)據(jù)的,立,立方體叫做,基本方體,。給定一個(gè),維,維的集合,,我,我們可以構(gòu),造,造一個(gè),方體的格,,每個(gè)都在,不,不同的匯總,級(jí),級(jí)或不同的,數(shù),數(shù)據(jù)子集顯,示,示數(shù)據(jù),方,體,體的格稱(chēng)為,數(shù)據(jù)立方體,。0維方體,存,存放最高層,的,的匯總,稱(chēng),作,作,頂點(diǎn)方體,;而存放最,底,底層匯總的,方,方體則稱(chēng)為,基本方體,。,,,數(shù)據(jù)立方體,—,——一個(gè)方,體,體的格,all,t

15、ime,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item, location, supplier,0-D(頂,點(diǎn),點(diǎn)) 方體,1-D方體,2-D 方,體,體,3-D 方,體,體,4-D(基,本,本) 方體,,,數(shù)據(jù)倉(cāng)庫(kù)的,概,概念模型,最流行的數(shù),

16、據(jù),據(jù)倉(cāng)庫(kù)概念,模,模型是多維,數(shù),數(shù)據(jù)模型。,這,這種模型可,以,以以星型模,式,式、雪花模,式,式、或事實(shí),星,星座模式的,形,形式存在。,星型模式(Starschema): 事,實(shí),實(shí)表在中心,,,,周?chē)鷩@,地,地連接著維,表,表(每維一,個(gè),個(gè)),事實(shí),表,表含有大量,數(shù),數(shù)據(jù),沒(méi)有,冗,冗余。,雪花模式(Snowflakeschema):,是,是星型模式,的,的變種,其,中,中某些維表,是,是規(guī)范化的,,,,因而把數(shù),據(jù),據(jù)進(jìn)一步分,解,解到附加表,中,中。結(jié)果,,模,模式圖形成,類(lèi),類(lèi)似于雪花,的,的形狀。,事實(shí)星座(Factconstellations): 多個(gè)事,實(shí),實(shí)表共享

17、維,表,表, 這種,模,模式可以看,作,作星型模式,集,集,因此稱(chēng),為,為星系模式,(,(galaxy schema),,,,或者事實(shí),星,星座(fact constellation),,,星型模式實(shí),例,例,,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,state_or_province,country,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars

18、_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,,,雪花模式實(shí),例,例,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city_key,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollar

19、s_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_key,item,branch_key,branch_name,branch_type,branch,supplier_key,supplier_type,supplier,city_key,city,state_or_province,country,city,,,事實(shí)星座模,式,式實(shí)例,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,province_

20、or_state,country,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,,Shipping FactTable,,time_key,item_key,,shipper_key,,from_location,,to_locati

21、on,,dollars_cost,,units_shipped,shipper_key,shipper_name,location_key,shipper_type,shipper,,,一種數(shù)據(jù)挖掘查,詢,詢語(yǔ)言: DMQL,DMQL首先包,括,括定義數(shù)據(jù)倉(cāng)庫(kù),和,和數(shù)據(jù)集市的語(yǔ),言,言原語(yǔ),這包括,兩,兩種原語(yǔ)定義:,一,一種是立方體定,義,義,一種是維定,義,義,立方體,定,定義(事實(shí),表,表),definecube[]:,維定義(維,表,表),definedimensionas(),特殊案,例,例 (,共,共享維,表,表的定,義,義),第一次,作,作為維,表,表定義,“,“cubedef

22、inition”,然后:definedimensionasincube,,,實(shí)例:,使,使用DMQL,定,定義星,型,型模式,definecubesales_star [time,item,branch, location]:,dollars_sold=sum(sales_in_dollars), avg_sales= avg(sales_in_dollars),units_sold= count(*),definedimensiontimeas(time_key, day,day_of_week, month,quarter,year),definedimensionitemas(item_

23、key, item_name,brand, type, supplier_type),definedimensionbranchas(branch_key,branch_name, branch_type),definedimensionlocationas(location_key,street,city,province_or_state,country),,,實(shí)例,:,:使,用,用DMQL定,義,義雪,花,花模,式,式,definecubesales_snowflake[time,item,branch,location]:,dollars_sold=sum(sales_in_dolla

24、rs),avg_sales=avg(sales_in_dollars),units_sold=count(*),definedimensiontimeas(time_key,day,day_of_week,month,quarter,year),definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)),definedimensionbranchas(branch_key,branch_name,branch_type),definedimensionlocationas(l

25、ocation_key,street,city(city_key,province_or_state,country)),,,實(shí)例,:,:使,用,用DMQL定,義,義事,實(shí),實(shí)星,座,座模,式,式,definecubesales[time,item,branch,location]:,dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*),definedimensiontimeas(time_key,day,day_of_week,month,quarter,year),def

26、inedimensionitemas(item_key,item_name,brand,type,supplier_type),definedimensionbranchas(branch_key,branch_name,branch_type),definedimensionlocationas(location_key,street,city,province_or_state,country),define cubeshipping [time,item, shipper,from_location,to_location]:,dollar_cost = sum(cost_in_doll

27、ars),unit_shipped =count(*),define dimensiontimeastimein cubesales,define dimensionitemasitemin cubesales,define dimensionshipperas(shipper_key, shipper_name, locationaslocationin cubesales, shipper_type),define dimensionfrom_locationaslocationin cubesales,define dimensionto_locationaslocationin cub

28、esales,,,度量的分類(lèi),一個(gè)數(shù)據(jù)立方體,的,的度量是一個(gè),數(shù)值,函數(shù),該函數(shù)可,以,以對(duì)數(shù)據(jù)立方體,的,的每一個(gè)點(diǎn)求值,。,。,(,剛才的示例中用,的,的是什么函數(shù)?,),度量可以根據(jù)其,所,所用的聚集函數(shù),分,分為三類(lèi):,分布的(distributive):將函數(shù),用,用于n個(gè)聚集值,得,得到的結(jié)果和將,函,函數(shù)用于所有數(shù),據(jù),據(jù)得到的結(jié)果一,樣,樣。,比如:count(),sum(),min(),max(),等,等,代數(shù)的(algebraic),:,:函數(shù)可以由一,個(gè),個(gè)帶M個(gè)參數(shù)的,代,代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),,,,而每個(gè)參數(shù)值,都,都可以有一個(gè)分,布,布的聚集函數(shù)求,得,得

29、。,比如:avg(),min_N(),standard_deviation(),整體的(holistic):,描,描述函數(shù)的子聚,集,集所需的存儲(chǔ)沒(méi),有,有一個(gè)常數(shù)界。,比如:median(),mode(),rank(),,,5-6,王 燦,數(shù)據(jù)挖掘,sjwj@,0703004,,,概念分層 (1),一個(gè)概念分層,(,(concept hierarchy,),)定義一個(gè)映,射,射序列,將低,層,層概念映射到,更,更一般的高層,概,概念,E.g. 表,示,示location的概念,:,:杭州,?浙江?中國(guó),?,?亞洲,概念分層允許,我,我們?cè)诟鞣N抽,象,象級(jí)審查和處,理,理數(shù)據(jù),概念分層可以

30、,由,由系統(tǒng)用戶、,領(lǐng),領(lǐng)域?qū)<摇⒅?識(shí),識(shí)工程師人工,的,的提供,也可,以,以根據(jù)數(shù)據(jù)分,布,布的統(tǒng)計(jì)分析,自,自動(dòng)的產(chǎn)生,,,概念分層 (2):,location維的一個(gè),概,概念分層,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,...,...,...,all,region,office,country,Toronto,Frankfurt,city,許多概念分層,的,的定義隱含在,數(shù),數(shù)據(jù)庫(kù)的模式,中,中。比如:location維的定義,office

31、ity

32、(,(數(shù)據(jù)立方體,),)使得從不同,的,的角度對(duì)數(shù)據(jù),進(jìn),進(jìn)行觀察成為,可,可能,而概念,分,分層則提供了,從,從不同層次對(duì),數(shù),數(shù)據(jù)進(jìn)行觀察,的,的能力;結(jié)合,這,這兩者的特征,,,,我們可以在,多,多維數(shù)據(jù)模型,上,上定義各種OLAP操作,,為,為用戶從不同,角,角度不同層次,觀,觀察數(shù)據(jù)提供,了,了靈活性:,,,多維數(shù)據(jù)模型,上,上的OLAP,操,操作 (1),上卷(roll-up):,匯,匯總數(shù)據(jù),通過(guò)一個(gè)維的,概,概念分層向上,攀,攀升或者通過(guò),維,維規(guī)約,當(dāng)用維歸約進(jìn),行,行上卷時(shí),一,個(gè),個(gè)或多個(gè)維由,給,給定的數(shù)據(jù)立,方,方體刪除,下鉆(drill-down):上卷的,逆,逆操

33、作,由不太詳細(xì)的,數(shù),數(shù)據(jù)到更詳細(xì),的,的數(shù)據(jù),可以,通,通過(guò)沿維的概,念,念分層向下或,引,引入新的維來(lái),實(shí),實(shí)現(xiàn) (為給,定,定數(shù)據(jù)添加更,多,多細(xì)節(jié)),切片和切塊(sliceand dice),切片操作在給,定,定的數(shù)據(jù)立方,體,體的一個(gè)維上,進(jìn),進(jìn)行選擇,導(dǎo),致,致一個(gè)子方,切塊操作通過(guò),對(duì),對(duì)兩個(gè)或多個(gè),維,維進(jìn)行選擇,,定,定義子方,P40 圖2-10,,,多維數(shù)據(jù)模型,上,上的OLAP,操,操作 (2),轉(zhuǎn)軸(pivot),立方體的重定,位,位,可視化,,或,或?qū)⒁粋€(gè)3維,立,立方體轉(zhuǎn)化為,一,一個(gè)2維平面,序,序列,轉(zhuǎn)軸是一種,可視化,操作,通過(guò)轉(zhuǎn),動(dòng),動(dòng)當(dāng)前數(shù)據(jù)的,視,視圖來(lái)

34、提供一,個(gè),個(gè)數(shù)據(jù)的替代,表,表示,其他OLAP,操,操作,鉆過(guò)(drill_across):執(zhí),行,行涉及多個(gè)事,實(shí),實(shí)表的查詢,鉆透(drill_through):,使,使用關(guān)系SQL機(jī)制,鉆到,數(shù),數(shù)據(jù)立方體的,底,底層,到后端,關(guān),關(guān)系表,其他OLAP,操,操作可能包括,列,列出表中最高,或,或最低的N項(xiàng),,,,以及計(jì)算移,動(dòng),動(dòng)平均值、增,長(zhǎng),長(zhǎng)率、利潤(rùn)、,統(tǒng),統(tǒng)計(jì)函數(shù)等等,P40 圖2-10,,,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì),:,:一個(gè)商務(wù)分,析,析框架 (1),數(shù)據(jù)倉(cāng)庫(kù)給商,業(yè),業(yè)分析專(zhuān)家提,供,供了什么?,通過(guò)提供相關(guān),數(shù),數(shù)據(jù)與信息,,獲,獲得競(jìng)爭(zhēng)優(yōu)勢(shì),通過(guò)有效的收,集,集精確的描述,組,組

35、織的數(shù)據(jù),,獲,獲得生產(chǎn)力的,提,提高,通過(guò)提供不同,級(jí),級(jí)別(部門(mén)、,市,市場(chǎng)、商業(yè)),的,的客戶視圖,,協(xié),協(xié)助客戶關(guān)系,管,管理,通過(guò)追蹤長(zhǎng)期,趨,趨勢(shì)、異常等,,,,降低成本,有效構(gòu)建數(shù)據(jù),倉(cāng),倉(cāng)庫(kù)的關(guān)鍵:,理,理解和分析商,業(yè),業(yè)需求,通過(guò)提供一個(gè),商,商業(yè)分析框架,,,,綜合各種不,同,同的數(shù)據(jù)使用,者,者的視圖,,,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì),:,:一個(gè)商務(wù)分,析,析框架 (2),數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì),的,的四種視圖,自頂向下視圖,允許我們選擇,數(shù),數(shù)據(jù)倉(cāng)庫(kù)所需,的,的相關(guān)信息,數(shù)據(jù)源視圖,揭示被操作數(shù),據(jù),據(jù)庫(kù)系統(tǒng)所捕,獲,獲、存儲(chǔ)和管,理,理的信息,數(shù)據(jù)倉(cāng)庫(kù)視圖,由事實(shí)表和維,表,表所組成,商務(wù)查

36、詢視圖,從最終用戶的,角,角度透視數(shù)據(jù),倉(cāng),倉(cāng)庫(kù)中的數(shù)據(jù),,,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì),:,:一個(gè)商務(wù)分,析,析框架 (3),數(shù)據(jù)倉(cāng)庫(kù)的構(gòu),建,建與使用涉及,多,多種技能,商業(yè)技能,理解系統(tǒng)如何,存,存儲(chǔ)和管理數(shù),據(jù),據(jù),數(shù)據(jù)如何提取,數(shù)據(jù)如何刷新,技術(shù)方面的技,能,能,如何通過(guò)使用,各,各種數(shù)據(jù)或量,化,化的信息,到,處,處可以提供決,策,策支持的模式,、,、趨勢(shì)、判斷,等,等,如何通過(guò)審查,歷,歷史數(shù)據(jù),分,析,析發(fā)展趨勢(shì)等,計(jì)劃管理技能,如何通過(guò)與不,同,同的技術(shù)、廠,商,商、用戶交互,,,,來(lái)及時(shí)、有,效,效、經(jīng)濟(jì)的提,交,交結(jié)果,,,數(shù)據(jù)倉(cāng)庫(kù)的設(shè),計(jì),計(jì)過(guò)程 (1),自頂向下法、,自,自底向上法

37、或,者,者兩者的混合,方,方法,自頂向下法:,由,由總體設(shè)計(jì)和,規(guī),規(guī)劃開(kāi)始,在技術(shù)成熟、,商,商業(yè)理解透徹,的,的情況下使用,自底向上法:,以,以實(shí)驗(yàn)和原型,開(kāi),開(kāi)始,常用在模型和,技,技術(shù)開(kāi)發(fā)的初,期,期,可以有效,的,的對(duì)使用的技,術(shù),術(shù)和模型進(jìn)行,評(píng),評(píng)估,降低風(fēng),險(xiǎn),險(xiǎn),混合方法:上,述,述兩者的結(jié)合,從軟件過(guò)程的,觀,觀點(diǎn),瀑布式方法:,在,在進(jìn)行下一步,前,前,每一步都,進(jìn),進(jìn)行結(jié)構(gòu)化和,系,系統(tǒng)的分析,螺旋式方法:,功,功能漸增的系,統(tǒng),統(tǒng)的快速產(chǎn)生,,,,相繼版本之,間,間間隔很短,,,數(shù)據(jù)倉(cāng)庫(kù)的設(shè),計(jì),計(jì)過(guò)程 (2),典型的數(shù)據(jù)倉(cāng),庫(kù),庫(kù)設(shè)計(jì)過(guò)程,選取待建模的,商務(wù)過(guò)程,找

38、到所構(gòu)建的,數(shù),數(shù)據(jù)倉(cāng)庫(kù)的主,題,題,比如:銷(xiāo),售,售、貨運(yùn)、訂,單,單等等,選取商務(wù)過(guò)程,的,的,顆粒度,數(shù)據(jù)起始于多,細(xì),細(xì)的顆粒度,,比,比如:記錄每,條,條詳細(xì)訂單,,或,或是開(kāi)始于每,日,日的匯總數(shù)據(jù),選取用于每個(gè),事,事實(shí)表記錄的,維,常用的維有:,時(shí),時(shí)間、貨物、,客,客戶、供應(yīng)商,等,等,選取將安放在,事,事實(shí)表中的,度量,常用的數(shù)字度,量,量包括:售價(jià),、,、貨物數(shù)量等,,,三層數(shù)據(jù)倉(cāng)庫(kù),架,架構(gòu) (1),,數(shù)據(jù)倉(cāng)庫(kù),,,,提取,清理,轉(zhuǎn)換,裝入,刷新,OLAP服務(wù),器,器,查詢報(bào)告,分析,數(shù)據(jù)挖掘,監(jiān)控、,整合,,,,元數(shù)據(jù),存儲(chǔ),數(shù)據(jù)源,前端工具,輸出,,,,,,數(shù)據(jù)集市

39、,,,,,,,操作數(shù)據(jù)庫(kù),其他外部信息源,,,,數(shù)據(jù)倉(cāng)庫(kù)服務(wù),器,器,,,,,OLAP服務(wù),器,器,,,三層數(shù)據(jù)倉(cāng)庫(kù),架,架構(gòu) (2),底層:數(shù)據(jù)倉(cāng),庫(kù),庫(kù)的數(shù)據(jù)庫(kù)服,務(wù),務(wù)器,關(guān)注的問(wèn)題:,如,如何從這一層,提,提取數(shù)據(jù)來(lái)構(gòu),建,建數(shù)據(jù)倉(cāng)庫(kù)(,通,通過(guò)Gateway(ODBC,JDBC,OLE/DB等)來(lái)提,取,?。?中間層:OLAP服務(wù)器,關(guān)注的問(wèn)題:OLAP服務(wù),器,器如何實(shí)施(,關(guān),關(guān)系型OLAP,多維OLAP等),前端客戶工具,層,層,關(guān)注的問(wèn)題:,查,查詢工具、報(bào),表,表工具、分析,工,工具、挖掘工,具,具等,,,三種數(shù)據(jù)倉(cāng)庫(kù),模,模型,從體系結(jié)構(gòu)的,角,角度去看,數(shù),據(jù),據(jù)倉(cāng)庫(kù)模

40、型可,以,以有以下三種,:,:,企業(yè)倉(cāng)庫(kù),搜集關(guān)于跨越,整,整個(gè)組織的主,題,題的所有信息,數(shù)據(jù)集市,企業(yè)范圍數(shù)據(jù),的,的一個(gè)子集,,對(duì),對(duì)于特定的客,戶,戶是有用的。,其,其范圍限于選,定,定的主題,比,如,如一個(gè)商場(chǎng)的,數(shù),數(shù)據(jù)集市,獨(dú)立的數(shù)據(jù)集,市,市 VS.,非,非獨(dú)立的數(shù)據(jù),集,集市(數(shù)據(jù)來(lái),自,自于企業(yè)數(shù)據(jù),倉(cāng),倉(cāng)庫(kù)),虛擬倉(cāng)庫(kù),操作數(shù)據(jù)庫(kù)上,的,的一系列視圖,只有一些可能,的,的匯總視圖被,物,物化,,,數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā),:,:困難與方法,數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā),上,上的困難,自頂向下的開(kāi),發(fā),發(fā)方法從全系,統(tǒng),統(tǒng)的角度提供,解,解決方案,使,得,得(模塊)集,成,成的問(wèn)題最小,;,;但是該方

41、法,十,十分昂貴,需,要,要對(duì)組織進(jìn)行,長(zhǎng),長(zhǎng)期研究和建,模,模分析。,自底向上方法,提,提供了更多的,開(kāi),開(kāi)發(fā)靈活性,,價(jià),價(jià)格便宜;但,往,往往會(huì)遇到集,成,成問(wèn)題(每個(gè),模,模塊單獨(dú)運(yùn)行,都,都沒(méi)有問(wèn)題,,但,但是一集成就,出,出異常),解決方法:,使用遞增性、,演,演化性的開(kāi)發(fā),方,方法,高層數(shù)據(jù)模型,?,企業(yè)倉(cāng)庫(kù)和數(shù),據(jù),據(jù)集市并行開(kāi),發(fā),發(fā),?,通過(guò)分布式模,型,型集成各數(shù)據(jù),集,集市,?,多層數(shù)據(jù)倉(cāng)庫(kù),,,數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā),—,——一個(gè)推薦,的,的方法,,定義,高,高層,數(shù),數(shù)據(jù),模,模型,,數(shù)據(jù),集,集市,,數(shù)據(jù),集,集市,,,,分布,式,式數(shù),據(jù),據(jù)集,市,市,多層,數(shù),數(shù)據(jù),倉(cāng)

42、,倉(cāng)庫(kù),企業(yè),數(shù),數(shù)據(jù),倉(cāng),倉(cāng)庫(kù),模型,提,提煉,模型,提,提煉,,,OLAP,服,服務(wù),器,器類(lèi),型,型(1),邏輯,上,上,OLAP,服,服務(wù),器,器從,數(shù),數(shù)據(jù),倉(cāng),倉(cāng)庫(kù),或,或數(shù),據(jù),據(jù)集,市,市中,給,給商,業(yè),業(yè)用,戶,戶提,供,供多,維,維數(shù),據(jù),據(jù),物理,上,上,OLAP,的,的底,層,層數(shù),據(jù),據(jù)存,儲(chǔ),儲(chǔ)實(shí),現(xiàn),現(xiàn)可,以,以有,多,多種,不,不同,的,的方,式,式,關(guān)系OLAP,服,服務(wù),器,器(ROLAP),使用,關(guān),關(guān)系,數(shù),數(shù)據(jù),庫(kù),庫(kù)或,擴(kuò),擴(kuò)展,的,的關(guān),系,系數(shù),據(jù),據(jù)庫(kù),存,存放,并,并管,理,理數(shù),據(jù),據(jù)倉(cāng),庫(kù),庫(kù)的,數(shù),數(shù)據(jù),,,,而,用,用OLAP中,間

43、,間件,支,支持,其,其余,部,部分,包括每個(gè)DBMS后端優(yōu)化,聚,集,集導(dǎo)航邏輯的實(shí),現(xiàn),現(xiàn),附加的工具,和,和服務(wù),較大的可擴(kuò)展性,,,OLAP服務(wù)器,類(lèi),類(lèi)型 (2),多維OLAP服,務(wù),務(wù)器(MOLAP),基于數(shù)組的多維,存,存儲(chǔ)引擎(稀疏,矩,矩陣技術(shù)),能對(duì)預(yù),計(jì),計(jì)算的,匯,匯總數(shù),據(jù),據(jù)快速,索,索引,混合OLAP,服,服務(wù)器(HOLAP),結(jié)合上,述,述兩種,技,技術(shù),,更,更大的,使,使用靈,活,活性,特殊的SQL,服,服務(wù)器,在星型,和,和雪花,模,模型上,支,支持SQL查,詢,詢,,,數(shù)據(jù)倉(cāng),庫(kù),庫(kù)的實(shí),現(xiàn),現(xiàn),—,——數(shù),據(jù),據(jù)立方,體,體的有,效,效計(jì)算,數(shù)據(jù)倉(cāng),庫(kù)

44、,庫(kù)中的OLAP查詢,是,是一種,海,海量數(shù),據(jù),據(jù)計(jì)算,(,(想,象,象一下,對(duì),對(duì)過(guò)去10年,各,各地區(qū),的,的軟件,產(chǎn),產(chǎn)品銷(xiāo),售,售的匯,總,總查詢,),),用戶卻,希,希望這,個(gè),個(gè)計(jì)算,能,能在數(shù),秒,秒鐘內(nèi),完,完成,解決方,法,法在于,給,給出一,種,種有效,的,的計(jì)算,數(shù),數(shù)據(jù)立,方,方體的,方,方法,數(shù)據(jù)立,方,方體可,以,以被看,成,成是一,個(gè),個(gè),方體的,格,格,最底層,的,的方體,是,是基本,方,方體,最頂端,的,的方體,(,(頂點(diǎn),),)只包,含,含一個(gè),單,單元的,值,值,一個(gè)n,維,維的數(shù),據(jù),據(jù)立方,體,體,每,維,維L層,,,,可能,產(chǎn),產(chǎn)生的,方,方體總,

45、數(shù),數(shù)是多,少,少?,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, item, year),,,方體的,操,操作,DMQL中的,方,方體定,義,義和計(jì),算,算,definecube,sales[item,city,year]:sum(sales_in_dollars),compute cube,sales,上述的computecube,子,子句可以轉(zhuǎn),化,化為一個(gè)類(lèi),似,似于SQL,的,的語(yǔ)句,SELECT item, city, year,SUM (amount),FROMSALES,CUBEBY

46、,item,city, year,這個(gè)相當(dāng)于SQL中以,下,下的group by,子,子句,(item, city, year)–3D,(item, city), (itemyear), (city, year)—2D,(item), (city),(year)—1D,()--0D,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, item, year),,,數(shù)據(jù)立方體,的,的物化,數(shù)據(jù)立方體,的,的,物化,可以有以下,三,三種選擇:,全物化,預(yù)先計(jì)算所,有,有方體,不物化,不預(yù)先計(jì)算,任,任何“非基,

47、本,本”方體,部分物化,有選擇的計(jì),算,算一個(gè)所有,方,方體的適當(dāng),子,子集,考慮因素,:(1),確定要物化,的,的方體;(2)在查詢,時(shí),時(shí)利用物化,的,的方體;(3)在裝載,和,和刷新時(shí),,有,有效的更新,物,物化的方體,確定物化,哪,哪些方體,考慮工作,負(fù),負(fù)荷下的,查,查詢、它,們,們的頻率,和,和它們的,開(kāi),開(kāi)銷(xiāo)等等,,,方體計(jì)算:ROLAP vs. MOLAP,方體計(jì)算的挑,戰(zhàn),戰(zhàn):,海量數(shù)據(jù),有,限,限的內(nèi)存和時(shí),間,間,基于ROLAP的方法(底,層,層使用關(guān)系模,型,型存儲(chǔ)數(shù)據(jù)),將排序、散列(hashing)和分組,操,操作應(yīng)用于維,的,的屬性,以便,對(duì),對(duì)相關(guān)元組重,新,新

48、排序和聚類(lèi),在某些子聚集,上,上分組,作為,“,“部分分組步,驟,驟”。,可以由以前計(jì),算,算的聚集計(jì)算,新,新的聚集,而,不,不必有基本事,實(shí),實(shí)表計(jì)算,基于MOLAP方法(底層,使,使用多維數(shù)組,存,存儲(chǔ)數(shù)據(jù)),多路數(shù)組聚集,的,的計(jì)算方法,將數(shù)組切成塊,(,(每個(gè)塊都可,以,以整個(gè)裝入內(nèi),存,存),通過(guò)訪問(wèn)各個(gè),塊,塊來(lái)計(jì)算匯總,值,值,,,方體計(jì)算的多,路,路數(shù)組聚集方,法,法(1),將數(shù)組分成塊,(,(chunk,一個(gè)可以裝,入,入內(nèi)存的小子,方,方),通過(guò)訪問(wèn)立方,體,體單元,計(jì)算,聚,聚集??梢詢?yōu),化,化訪問(wèn)單元組,的,的次序,使得,每,每個(gè)單元被訪,問(wèn),問(wèn)的次數(shù)最小,化,化,從

49、而減少,內(nèi),內(nèi)存訪問(wèn)和磁,盤(pán),盤(pán)I/O的開(kāi),銷(xiāo),銷(xiāo)。,A(month),40個(gè)值,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C(item)4000,個(gè),個(gè)值,B(city)400個(gè),值,值,44,28,56,40,24,52,36,20,60,哪個(gè),是,是多,路,路數(shù),組,組聚,集,集的,最,最佳,遍,遍歷,次,次序,?,?,,,方體,計(jì),計(jì)算,的,的多,路,路數(shù),組,

50、組聚,集,集方,法,法(2),A(month),40,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c 0,b3,b2,b1,b0,a2,a3,C(item),4000,44,28,56,40,24,52,36,20,60,,,B(city),400,,,,,,,,,,,,,,,,,方體,計(jì),計(jì)算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(3),A,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

51、,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C,44,28,56,40,24,52,36,20,60,,,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,方體,計(jì),計(jì)算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(4),方法,:,:各,平,平面,要,要按,他,他們,大,大小,的,的升,序,序排,列,列進(jìn),行,行排,序,序和,計(jì),計(jì)算,詳見(jiàn),書(shū),書(shū)P50,例,例2.12(,P52,圖,圖

52、2-16有,誤,誤,),思想,:,:將,最,最小,的,的平,面,面放,在,在內(nèi),存,存中,,,,對(duì),最,最大,的,的平,面,面每,次,次只,是,是取,并,并計(jì),算,算一,塊,塊,,,方體,計(jì),計(jì)算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(5),根據(jù)1到64,的,的掃,描,描次,序,序,,在,在塊,內(nèi),內(nèi)存,中,中保,存,存所,有,有相,關(guān),關(guān)的2-D平,面,面所,需,需的,最,最小,存,存儲(chǔ),為,為:,40,×,×400,(,(用,于,于整,個(gè),個(gè)AB平,面,面),+,+40×1000,(,(用,于,于AC平,面,面一,行,行),+,+100,×,×1000(,用,用于BC,平,平面,

53、一,一塊)=156,000,這種,方,方法,的,的限,制,制:,只,只有,在,在維,數(shù),數(shù)比,較,較小,的,的情,況,況下,,,,效,果,果才,比,比較,理,理想(要,計(jì),計(jì)算,的,的立,方,方體,隨,隨維,數(shù),數(shù)指,數(shù),數(shù)增,長(zhǎng),長(zhǎng)),如果維的,數(shù),數(shù)目比較,多,多,可以,考,考慮使用,“,“自底向,上,上的計(jì)算,”,”或者時(shí),“,“冰山方,體,體” 計(jì),算,算,,,OLAP,查,查詢的有,效,效處理,確定哪些,操,操作應(yīng)當(dāng),在,在可利用,的,的方體上,執(zhí),執(zhí)行:,將查詢中,的,的選擇、,投,投影、上,卷,卷和下鉆,等,等操作轉(zhuǎn),化,化為對(duì)應(yīng),的,的SQL,或,或/和OLAP操,作,作,如:

54、dice= selection+ projection,確定相關(guān),操,操作應(yīng)當(dāng),使,使用哪些,物,物化的方,體,體,找尋MOLAP中,可,可以利用,的,的索引結(jié),構(gòu),構(gòu)以及壓,縮,縮的或是,稠,稠密的數(shù),組,組結(jié)構(gòu),,,有效處理OLAP,查,查詢(示,例,例),立方體的,定,定義為:sales[time,item,location]: sum(sales_in_dollar),time,的,的維層次day

55、e

56、,,元,元數(shù)據(jù)就是定義,數(shù),數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的,數(shù),數(shù)據(jù)。有以下幾,種,種:,數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的,描,描述,倉(cāng)庫(kù)模式、視圖,、,、維、層次結(jié)構(gòu),、,、導(dǎo)出數(shù)據(jù)的定,義,義,以及數(shù)據(jù)集,市,市的位置和內(nèi)容,操作元數(shù)據(jù),包括數(shù)據(jù)血統(tǒng)(data lineage)、,數(shù),數(shù)據(jù)類(lèi)別(currencyof data),以及監(jiān)視信,息,息,匯總用的算法,由操作環(huán)境到數(shù),據(jù),據(jù)倉(cāng)庫(kù)的映射,關(guān)于系統(tǒng)性能的,數(shù),數(shù)據(jù),索引,profiles,數(shù)據(jù),刷,刷新、更新或復(fù),制,制事件的調(diào)度和,定,定時(shí),商務(wù)元數(shù)據(jù),商務(wù)術(shù)語(yǔ)和定義,、,、數(shù)據(jù)擁有者信,息,息、收費(fèi)政策等,,,元數(shù)據(jù)的使用,元數(shù)據(jù)與數(shù)據(jù)一,起,起,構(gòu)成了數(shù)據(jù),倉(cāng),

57、倉(cāng)庫(kù)中的數(shù)據(jù)模,型,型,元數(shù)據(jù)所描,述,述的更多的是這,個(gè),個(gè)模型的結(jié)構(gòu)方,面,面的信息。,在數(shù)據(jù)倉(cāng)庫(kù)中,,元,元數(shù)據(jù)的主要用,途,途包括:,用作目錄,幫助,決,決策支持系統(tǒng)分,析,析者對(duì)數(shù)據(jù)倉(cāng)庫(kù),的,的內(nèi)容定義,作為數(shù)據(jù)倉(cāng)庫(kù)和,操,操作性數(shù)據(jù)庫(kù)之,間,間進(jìn)行數(shù)據(jù)轉(zhuǎn)換,時(shí),時(shí)的映射標(biāo)準(zhǔn),用于指導(dǎo)當(dāng)前細(xì),節(jié),節(jié)數(shù)據(jù)和稍加綜,合,合的數(shù)據(jù)之間的,匯,匯總算法,指導(dǎo),稍,稍加綜合的數(shù)據(jù),和,和高度綜合的數(shù),據(jù),據(jù)之間的匯總算,法,法。,,,數(shù)據(jù)倉(cāng)庫(kù)后端工,具,具和程序,數(shù)據(jù)倉(cāng)庫(kù)后端工,具,具主要指的是用,來(lái),來(lái)裝入和刷新數(shù),據(jù),據(jù)的工具,包括,:,:,數(shù)據(jù)提取:,從多個(gè)外部的異,構(gòu),構(gòu)數(shù)據(jù)源收集數(shù),

58、據(jù),據(jù),數(shù)據(jù)清理,檢測(cè)數(shù)據(jù)種的錯(cuò),誤,誤并作可能的訂,正,正,數(shù)據(jù)變換,將數(shù)據(jù)由歷史或,主,主機(jī)的格式轉(zhuǎn)化,為,為數(shù)據(jù)倉(cāng)庫(kù)的格,式,式,裝載,排序、匯總、合,并,并、計(jì)算視圖,,檢,檢查完整性,并,建,建立索引和分區(qū),刷新,將數(shù)據(jù)源的更新,傳,傳播到數(shù)據(jù)倉(cāng)庫(kù),中,中,,,數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用,數(shù)據(jù)倉(cāng)庫(kù)的三種,應(yīng),應(yīng)用,信息處理,支持查詢和基本,的,的統(tǒng)計(jì)分析,并,使,使用交叉表、表,、,、圖標(biāo)和圖進(jìn)行,報(bào),報(bào)表處理,分析處理,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的,數(shù),數(shù)據(jù)進(jìn)行多維數(shù),據(jù),據(jù)分析,支持基本的OLAP操作,切塊,、,、切片、上卷、,下,下鉆、轉(zhuǎn)軸等,數(shù)據(jù)挖掘,從隱藏模式中發(fā),現(xiàn),現(xiàn)知識(shí),支持關(guān)聯(lián)分析,,構(gòu),構(gòu)

59、建分析性模型,,,,分類(lèi)和預(yù)測(cè),,并,并用可視化工具,呈,呈現(xiàn)挖掘的結(jié)果,三種應(yīng)用間的差,別,別,,,從聯(lián)機(jī)分析處理,到,到聯(lián)機(jī)分析挖掘,為什么要聯(lián)機(jī)分,析,析挖掘,數(shù)據(jù)倉(cāng)庫(kù)中有高,質(zhì),質(zhì)量的數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)中存放,著,著整合的、一致,的,的、清理過(guò)的數(shù),據(jù),據(jù),圍繞數(shù)據(jù)倉(cāng)庫(kù)的,信,信息處理結(jié)構(gòu),存取、集成、合,并,并多個(gè)異種數(shù)據(jù),庫(kù),庫(kù)的轉(zhuǎn)換,ODBC/OLEDB連接,Web,訪,訪問(wèn)和訪問(wèn)工具,等,等,基于OLAP的,探,探測(cè)式數(shù)據(jù)分析,使用上卷、下鉆,、,、切片、轉(zhuǎn)軸等,技,技術(shù)進(jìn)行數(shù)據(jù)挖,掘,掘,數(shù)據(jù)挖掘功能的,聯(lián),聯(lián)機(jī)選擇,多種數(shù)據(jù)挖掘功,能,能、算法和任務(wù),的,的整合,,,聯(lián)機(jī)分析挖掘的,體,體系結(jié)構(gòu),,,,,,,,,,數(shù)據(jù)倉(cāng)庫(kù),元數(shù)據(jù),多維數(shù)據(jù)庫(kù),,,OLAM,引擎,OLAP,引擎,用戶圖形界面API,數(shù)據(jù)方體 API,,數(shù)據(jù)庫(kù) API,,數(shù)據(jù)清理,數(shù)據(jù)集成,第三層,OLAP/OLAM,第二層,多維數(shù)據(jù)庫(kù),第一層,數(shù)據(jù)存儲(chǔ),第四層,用戶界面,數(shù)據(jù)的過(guò)濾、集,成,成,過(guò)濾,,,,,數(shù)據(jù)庫(kù),基于約束的數(shù)據(jù),挖,挖掘,挖掘結(jié)果,,,

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!