歡迎來到裝配圖網! | 幫助中心 裝配圖網zhuangpeitu.com!
裝配圖網
ImageVerifierCode 換一換
首頁 裝配圖網 > 資源分類 > PPT文檔下載  

生物醫(yī)學數據挖掘-數據的采集和組織課件

  • 資源ID:252818888       資源大?。?span id="pxk1ias" class="font-tahoma">1.03MB        全文頁數:31頁
  • 資源格式: PPT        下載積分:20積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要20積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復下載(系統(tǒng)自動生成)
支付方式: 微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

生物醫(yī)學數據挖掘-數據的采集和組織課件

,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,生物醫(yī)學數據挖掘,Biomedical Data Mining,生物醫(yī)學數據挖掘Biomedical Data Minin,2,回顧,第一章 概論,一、什么是數據挖掘,二、數據挖掘的過程,三、數據挖掘方法的分類,預測型,描述型,2回顧第一章 概論,3,第一章 概論,一、什么是數據挖掘,二、數據挖掘的過程,三、數據挖掘方法的分類,四、數據挖掘性能評價,評價準則,樣本的組織,預測型模型的性能評價,描述型模型的性能評價,3第一章 概論一、什么是數據挖掘,4,評價準則:結果或模型,準確性,可理解性,性能,數據的噪聲,四、數據挖掘性能評價,4評價準則:結果或模型四、數據挖掘性能評價,5,樣本的組織,所有樣本屬性已知,兩類樣本:相互獨立,學習樣本,/,訓練樣本集:規(guī)律的總結,測試樣本集:評價、檢驗,四、數據挖掘性能評價,5樣本的組織四、數據挖掘性能評價,6,兩類樣本的分組,6兩類樣本的分組,7,隨機分組法:,通常:訓練集,(2/3),,測試集,(1/3),兩類樣本的分組,模型,評估,7隨機分組法:兩類樣本的分組模型評估,8,交叉驗證法:,如,K,折交叉驗證法(一般隨機分成,10,組),留一法:適用樣本數據更少的情況,兩類樣本的分組,8交叉驗證法:兩類樣本的分組,9,舉例,例,1.,預測型模型,肺癌 干預,(,手術,/,手術化療,),及預后(五年生存),共,5,萬個樣本,其中,1.7,萬干預后,5,年內死于肺癌,如何組織數據進行數據挖掘?,9舉例例1.預測型模型,10,例,2.,共,1000,個,其中,315,個五年內死亡,如何組織數據?,例,3.,共,49,個,,14,個,5,年內死亡,,35,個存活,如何組織數據?,10例2.,11,總結:,隨機,分布與總體相近,計算成本的考慮,樣本要保證足夠多,但不只是數量的多少,11,12,預測型模型的性能評價,殘差,混淆矩陣,P10,靈敏度(,sensitivity,),特異度(,specificity,),分類正確率(,accuracy,),ROC,(,receiver operating characteristics curve,)曲線,四、數據挖掘性能評價,12預測型模型的性能評價四、數據挖掘性能評價,13,靈敏度,特異度,分類正確率,四、數據挖掘性能評價,13四、數據挖掘性能評價,14,例:,ECG(electrocardiogram),診斷試驗的結果,靈敏度,=,?,特異度,=,?,分類正確率,=?,14例:ECG(electrocardiogram)診斷試驗,15,靈敏度與特異度,取值:均在,0-1,之間,缺點:單獨使用,可能出現矛盾,解決辦法:,ROC,曲線,15靈敏度與特異度,16,ROC,曲線,靈敏度與特異度間的平衡,(trade off),四、數據挖掘性能評價,1,特異度(假陽性率),靈敏度,機率線,(chance line)(diagonal reference line),16ROC曲線四、數據挖掘性能評價1特異度(假陽性率)靈敏,17,完美結果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,無用結果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,17完美結果0.00.20.40.60.81.00.00.2,18,ROC,曲線下面積(,Area,),高,0.90-1.00=excellent(A),中,0.80-0.90=good(B)0.70-0.80=fair(C),低,0.60-0.70=poor(D)0.50-0.60=fail(F),0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.664,A,0.830,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.938,18ROC曲線下面積(Area)0.00.20.40.60.,19,例,4.,繼續(xù)前例,,干預及預后(五年生存),共,5,萬個樣本,其中,1.7,萬干預后,,5,年內死于肺癌,其余,3.3,萬存活。,假定對上述數據分別建立了預測型模型,A,和,B,,,試比較兩個模型的性能。,19例4.繼續(xù)前例,,20,模型,A,模型,B,20模型A,21,比較模型,A,與,B,:,21比較模型A與B:,22,性能評價的作用:,如實表明,描述模型的性能,可以比較,模型性能的優(yōu)劣、高低,同一問題可多個模型,即使僅一個模型,可設計多個參數,22性能評價的作用:,23,總結,第一章 概論,一、什么是數據挖掘,二、數據挖掘的過程,三、數據挖掘方法的分類,四、數據挖掘性能評價,23總結第一章 概論,24,第二章 數據采集與準備,一、數據的采集和組織,1.,數據采集和管理,2.,數據的組織,3.,數據的類型,二、數據管理,三、數據預處理,24第二章 數據采集與準備一、數據的采集和組織,25,一、數據的采集和組織,數據采集和管理,關系數據庫,DB,既往的數據,如電子病例,數據倉庫,DW,面向特定目標的、集成的數據集合,如,HIS,25一、數據的采集和組織數據采集和管理,26,一、數據的采集和組織,數據組織,平面文件,記錄:處理的對象,屬性:一個特征,26一、數據的采集和組織數據組織,27,一、數據的采集和組織,數據的類型,數值:可運算,如年齡、血壓,分類:文字或數字,不可運算,二值型:,對稱:如性別:男、女,非對稱:如陽性,1,、陰性,0,排序型,數值型和分類型數據的轉換,27一、數據的采集和組織數據的類型,28,一、數據的采集和組織,例,.,采集原始數據,姓名:,ID,:,性別:,年齡:,血壓:,腫瘤,TNM,分期:,28一、數據的采集和組織例.采集原始數據,29,第二章 數據采集與準備,一、數據的采集和組織,二、數據管理,1.Excel,2.,關系數據庫,三、數據預處理,29第二章 數據采集與準備一、數據的采集和組織,30,二、,數據管理,Excel,數據管理,數據清單,排序、篩選,統(tǒng)計分析,分類匯總,30二、數據管理Excel數據管理,31,二、,數據管理,關系數據庫,數據定義,排序、索引和篩選,查詢和統(tǒng)計,31二、數據管理關系數據庫,

注意事項

本文(生物醫(yī)學數據挖掘-數據的采集和組織課件)為本站會員(29)主動上傳,裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知裝配圖網(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。




關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

copyright@ 2023-2025  sobing.com 裝配圖網版權所有   聯系電話:18123376007

備案號:ICP2024067431-1 川公網安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網,我們立即給予刪除!