生物醫(yī)學數據挖掘-數據的采集和組織課件
,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,生物醫(yī)學數據挖掘,Biomedical Data Mining,生物醫(yī)學數據挖掘Biomedical Data Minin,2,回顧,第一章 概論,一、什么是數據挖掘,二、數據挖掘的過程,三、數據挖掘方法的分類,預測型,描述型,2回顧第一章 概論,3,第一章 概論,一、什么是數據挖掘,二、數據挖掘的過程,三、數據挖掘方法的分類,四、數據挖掘性能評價,評價準則,樣本的組織,預測型模型的性能評價,描述型模型的性能評價,3第一章 概論一、什么是數據挖掘,4,評價準則:結果或模型,準確性,可理解性,性能,數據的噪聲,四、數據挖掘性能評價,4評價準則:結果或模型四、數據挖掘性能評價,5,樣本的組織,所有樣本屬性已知,兩類樣本:相互獨立,學習樣本,/,訓練樣本集:規(guī)律的總結,測試樣本集:評價、檢驗,四、數據挖掘性能評價,5樣本的組織四、數據挖掘性能評價,6,兩類樣本的分組,6兩類樣本的分組,7,隨機分組法:,通常:訓練集,(2/3),,測試集,(1/3),兩類樣本的分組,模型,評估,7隨機分組法:兩類樣本的分組模型評估,8,交叉驗證法:,如,K,折交叉驗證法(一般隨機分成,10,組),留一法:適用樣本數據更少的情況,兩類樣本的分組,8交叉驗證法:兩類樣本的分組,9,舉例,例,1.,預測型模型,肺癌 干預,(,手術,/,手術化療,),及預后(五年生存),共,5,萬個樣本,其中,1.7,萬干預后,5,年內死于肺癌,如何組織數據進行數據挖掘?,9舉例例1.預測型模型,10,例,2.,共,1000,個,其中,315,個五年內死亡,如何組織數據?,例,3.,共,49,個,,14,個,5,年內死亡,,35,個存活,如何組織數據?,10例2.,11,總結:,隨機,分布與總體相近,計算成本的考慮,樣本要保證足夠多,但不只是數量的多少,11,12,預測型模型的性能評價,殘差,混淆矩陣,P10,靈敏度(,sensitivity,),特異度(,specificity,),分類正確率(,accuracy,),ROC,(,receiver operating characteristics curve,)曲線,四、數據挖掘性能評價,12預測型模型的性能評價四、數據挖掘性能評價,13,靈敏度,特異度,分類正確率,四、數據挖掘性能評價,13四、數據挖掘性能評價,14,例:,ECG(electrocardiogram),診斷試驗的結果,靈敏度,=,?,特異度,=,?,分類正確率,=?,14例:ECG(electrocardiogram)診斷試驗,15,靈敏度與特異度,取值:均在,0-1,之間,缺點:單獨使用,可能出現矛盾,解決辦法:,ROC,曲線,15靈敏度與特異度,16,ROC,曲線,靈敏度與特異度間的平衡,(trade off),四、數據挖掘性能評價,1,特異度(假陽性率),靈敏度,機率線,(chance line)(diagonal reference line),16ROC曲線四、數據挖掘性能評價1特異度(假陽性率)靈敏,17,完美結果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,無用結果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,17完美結果0.00.20.40.60.81.00.00.2,18,ROC,曲線下面積(,Area,),高,0.90-1.00=excellent(A),中,0.80-0.90=good(B)0.70-0.80=fair(C),低,0.60-0.70=poor(D)0.50-0.60=fail(F),0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.664,A,0.830,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.938,18ROC曲線下面積(Area)0.00.20.40.60.,19,例,4.,繼續(xù)前例,,干預及預后(五年生存),共,5,萬個樣本,其中,1.7,萬干預后,,5,年內死于肺癌,其余,3.3,萬存活。,假定對上述數據分別建立了預測型模型,A,和,B,,,試比較兩個模型的性能。,19例4.繼續(xù)前例,,20,模型,A,模型,B,20模型A,21,比較模型,A,與,B,:,21比較模型A與B:,22,性能評價的作用:,如實表明,描述模型的性能,可以比較,模型性能的優(yōu)劣、高低,同一問題可多個模型,即使僅一個模型,可設計多個參數,22性能評價的作用:,23,總結,第一章 概論,一、什么是數據挖掘,二、數據挖掘的過程,三、數據挖掘方法的分類,四、數據挖掘性能評價,23總結第一章 概論,24,第二章 數據采集與準備,一、數據的采集和組織,1.,數據采集和管理,2.,數據的組織,3.,數據的類型,二、數據管理,三、數據預處理,24第二章 數據采集與準備一、數據的采集和組織,25,一、數據的采集和組織,數據采集和管理,關系數據庫,DB,既往的數據,如電子病例,數據倉庫,DW,面向特定目標的、集成的數據集合,如,HIS,25一、數據的采集和組織數據采集和管理,26,一、數據的采集和組織,數據組織,平面文件,記錄:處理的對象,屬性:一個特征,26一、數據的采集和組織數據組織,27,一、數據的采集和組織,數據的類型,數值:可運算,如年齡、血壓,分類:文字或數字,不可運算,二值型:,對稱:如性別:男、女,非對稱:如陽性,1,、陰性,0,排序型,數值型和分類型數據的轉換,27一、數據的采集和組織數據的類型,28,一、數據的采集和組織,例,.,采集原始數據,姓名:,ID,:,性別:,年齡:,血壓:,腫瘤,TNM,分期:,28一、數據的采集和組織例.采集原始數據,29,第二章 數據采集與準備,一、數據的采集和組織,二、數據管理,1.Excel,2.,關系數據庫,三、數據預處理,29第二章 數據采集與準備一、數據的采集和組織,30,二、,數據管理,Excel,數據管理,數據清單,排序、篩選,統(tǒng)計分析,分類匯總,30二、數據管理Excel數據管理,31,二、,數據管理,關系數據庫,數據定義,排序、索引和篩選,查詢和統(tǒng)計,31二、數據管理關系數據庫,