歡迎來(lái)到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

數(shù)據(jù)挖掘模型評(píng)估

  • 資源ID:253028427       資源大小:1.38MB        全文頁(yè)數(shù):42頁(yè)
  • 資源格式: PPT        下載積分:9.9積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào),方便查詢和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開(kāi),此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案,請(qǐng)知曉。

數(shù)據(jù)挖掘模型評(píng)估

單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,數(shù)據(jù)挖掘模型評(píng)估,2024/11/27,1,一、評(píng)估分類法的準(zhǔn)確率,2024/11/27,2,評(píng)估分類法準(zhǔn)確率的技術(shù)有保持(,holdout,)和,k-,折交叉確認(rèn)(,k-fold cross-validation,)方法。,另外,還有兩種提供分類法準(zhǔn)確率的策略:裝袋(,bagging,)和推進(jìn)(,boosting,)。,1,、保持和,k-,折交叉,在保持方法中,給定數(shù)據(jù)隨機(jī)劃分成兩個(gè)獨(dú)立的集合:訓(xùn)練集和測(cè)試集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到訓(xùn)練集。,2024/11/27,3,“保持”這種評(píng)估方法是保守的,因?yàn)橹挥幸徊糠殖跏紨?shù)據(jù)用于導(dǎo)出的分類法。,隨機(jī)子選樣是“保持”方法的一種變形,它將“保持”方法重復(fù),k,次??傮w準(zhǔn)確率估計(jì)取每次迭代準(zhǔn)確率的平均值。,K,折交叉確認(rèn),在,k,折交叉確認(rèn)(,kfold crossvalidation,)中,初試數(shù)據(jù)被劃分成,k,個(gè)互不相交的子集或“折”,每個(gè)折的大小大致相等。訓(xùn)練和測(cè)試,k,次。在第,i,次迭代,第,i,折用作測(cè)試集,其余的子集都用于訓(xùn)練分類法。,準(zhǔn)確率估計(jì)是,k,次迭代正確分類數(shù)除以初始數(shù)據(jù)中的樣本總數(shù)。,2024/11/27,4,2,、提高分類法的準(zhǔn)確率,2024/11/27,5,裝袋,2024/11/27,6,推進(jìn),即使用相同的分類器,各個(gè)分類器不是獨(dú)立的;使用同一個(gè)算法對(duì)樣本迭代訓(xùn)練,后建立的分類器關(guān)注于先前建立的分類器不能更好處理的部分?jǐn)?shù)據(jù);最終的輸出為各個(gè)分類器的加權(quán)投票。,3,、靈敏性和特效性度量,假定你已經(jīng)訓(xùn)練了一個(gè)分類法,將醫(yī)療數(shù)據(jù)分類為“cancer”或“non_cancer”。90%的準(zhǔn)確率使得該分類法看上去相當(dāng)準(zhǔn)確,但是如果實(shí)際只有34%的訓(xùn)練樣本是“cancer”會(huì)怎么樣?,顯然,90%的準(zhǔn)確率是不能接受的該分類法只能正確的標(biāo)記“non_cancer”(稱作負(fù)樣本)樣本。但我們希望評(píng)估該分類能夠識(shí)別“cancer”(稱作正樣本)的情況。,2024/11/27,7,為此,除用準(zhǔn)確率評(píng)價(jià)分類模型外,還需要使用靈敏性(sensitivity)和特效性(specificity)度量。,還可以使用精度(precision)來(lái)度量,即評(píng)估標(biāo)記為“cancer”,實(shí)際是“cancer”的樣本百分比。,2024/11/27,8,其中,,t_pos,是真正樣本(被正確地按此分類的“,cancer,”樣本)數(shù),,pos,是正(“,cancer,”)樣本數(shù),,t_neg,是真負(fù)樣本(被正確地按此分類的“,non_cancer,”樣本)數(shù),,neg,是負(fù)(“,non_cancer,”)樣本數(shù),,而,f_pos,假正樣本(被錯(cuò)誤地標(biāo)記為“,cancer,”的“,non_cancer,”樣本)數(shù),2024/11/27,9,靈敏性,特效性,精度,2024/11/27,10,預(yù)測(cè)值,1,(實(shí)際“,cancer,”),0,(實(shí)際,no_cancer,),1(,預(yù)測(cè)“,cancer,”,),0,0,0(,預(yù)測(cè)“,no_cancer,”,),10,90,二、數(shù)據(jù)挖掘模型評(píng)估的錯(cuò)誤觀念,傳統(tǒng)評(píng)估分類預(yù)測(cè)模型時(shí),通常使用的是“準(zhǔn)確度”。它的功能是評(píng)估模型分類實(shí)物是否正確。準(zhǔn)確度越高模型就越好。,但事實(shí)上,這樣評(píng)估出來(lái)的模型并不是最好的。,2024/11/27,11,例:某家銀行發(fā)行現(xiàn)金卡,風(fēng)險(xiǎn)控管部門主管決定建立,DM,模型,利用申請(qǐng)人申請(qǐng)當(dāng)時(shí)的所填的資料,建立違約預(yù)測(cè)模型,來(lái)作為核發(fā)現(xiàn)金卡以及給予額度的標(biāo)準(zhǔn)。,該銀行邀請(qǐng)兩家,DM,公司來(lái)設(shè)計(jì)模型,評(píng)比的標(biāo)準(zhǔn)是根據(jù)模型的“準(zhǔn)確度”。,根據(jù)此標(biāo)準(zhǔn),,A,公司所建模型的準(zhǔn)確度,92%,,,B,公司的準(zhǔn)確度是,68%,。,銀行和,A,公司簽約。,2024/11/27,12,利用,A,公司的模型后,結(jié)果發(fā)現(xiàn)里面只有一條規(guī)則,那就是“所有的人都不會(huì)違約”。,為什么?,A,:所有的人都不會(huì)違約,因此它錯(cuò)誤的只有,8%,的違約分類錯(cuò)誤(違約誤判為不違約),因此準(zhǔn)確率是,92%,。,B,:在根據(jù)評(píng)分由高至低篩選出來(lái)前,40%,的名單中,可以將所有的違約戶都找出來(lái)。即有,32%,的非違約戶被誤判為違約戶,因此準(zhǔn)確率只有,68%,。,哪一家的模型更好呢?,由上可以發(fā)現(xiàn),不能使用準(zhǔn)確率來(lái)評(píng)判模型的優(yōu)劣。,2024/11/27,13,為什么會(huì)出現(xiàn)這樣的結(jié)果?,原因在于兩類錯(cuò)誤,忽略了“,錯(cuò)誤不等價(jià),”。,如果把一個(gè)“會(huì)違約的人判斷成不會(huì)違約”,這家銀行損失,20,30,萬(wàn)元的現(xiàn)金卡卡金,但是如果將一個(gè)“不會(huì)違約的人錯(cuò)判成違約”,只是劃分了一些審查成本以及可能因?yàn)楸J亟o予額度而造成的機(jī)會(huì)成本損失。,因此兩種誤判所造成的效益影響是不等價(jià)的。,2024/11/27,14,所謂小概率事件是發(fā)生概率小,而且一定是能夠?yàn)槠髽I(yè)界帶來(lái)高度獲利或嚴(yán)重?fù)p失的事件。,由于小概率事件發(fā)生概率很小,如果針對(duì)所有客戶采取行動(dòng),就會(huì)形成浪費(fèi),因此,需要利用預(yù)測(cè)的技術(shù)將小概率事件找出來(lái)。那么,只針對(duì)預(yù)測(cè)的小概率事件采取行動(dòng)就會(huì)避免浪費(fèi)。,DM,的價(jià)值就在于能夠利用歷史資料找出,“小概率事件”。,2024/11/27,15,小概率事件:,因此,評(píng)估數(shù)據(jù)挖掘模型的第一步就必須從錯(cuò)誤狀態(tài)的分類入手。這需要建立分類矩陣,通過(guò)分類矩陣來(lái)查看所有錯(cuò)誤的分布。,2024/11/27,16,H,0,為真,H,0,為假,真實(shí)情況,所作判斷,接受,H,0,拒絕,H,0,正確,正確,棄真錯(cuò)誤,取偽錯(cuò)誤,兩類錯(cuò)誤,犯第一類錯(cuò)誤是棄真錯(cuò)誤;,犯第二類錯(cuò)誤是取偽錯(cuò)誤,。,2024/11/27,17,三、分類矩陣,對(duì)于,DM,來(lái)說(shuō),通常第二類錯(cuò)誤的損失或收益要比第一類高。,因此,我們需要確定哪一個(gè)狀況是我們所關(guān)心的小概率事件。,把對(duì)這個(gè)事件的誤判會(huì)造成極大損失的情況,作為第二類錯(cuò)誤。,例,把一個(gè)好賬的人當(dāng)作呆賬是第一類錯(cuò)誤,把一個(gè)呆賬的人當(dāng)作好賬是第二類錯(cuò)誤。,2024/11/27,18,預(yù)測(cè)值,1,(實(shí)際“會(huì)違約”),0,(實(shí)際“不會(huì)違約”),1,66,28,0,185,721,2024/11/27,19,表中,預(yù)測(cè)為會(huì)違約且實(shí)際也會(huì)違約的有,66,人,預(yù)測(cè)不會(huì)違約且實(shí)際沒(méi)有違約的有,721,人,這些是分類正確者。,表中,預(yù)測(cè)為會(huì)違約且實(shí)際沒(méi)有違約的有,28,人,預(yù)測(cè)不會(huì)違約且實(shí)際違約的有,185,人,這些是預(yù)測(cè)模型判斷錯(cuò)誤的部分。,其中,后者還會(huì)造成比較嚴(yán)重的損失,是值得關(guān)注的部分。,該如何使用分類矩陣的信息呢?,2024/11/27,20,主要看三個(gè)指標(biāo),即回應(yīng)率、反查率以及間距縮減。,Response rate,=,預(yù)測(cè)會(huì)違約且實(shí)際會(huì)違約,/,所有預(yù)測(cè)會(huì)違約,=66/(66+28)=70.21%,預(yù)測(cè)模型回應(yīng)率的高低須和總體回應(yīng)率比較:,總體,response rate,=,總體實(shí)際會(huì)違約,/,總體,=(66+185)/(66+185+28+721)=25.1%,2024/11/27,21,預(yù)測(cè)值,1,(實(shí)際“會(huì)違約”),0,(實(shí)際“不會(huì)違約”),1,66,28,0,185,721,回應(yīng)率,(response rate),:在預(yù)測(cè)的名單中找出有多少小概率事件(在預(yù)測(cè)違約的名單中,真正違約的所占比例是多少)。,可以發(fā)現(xiàn),原始回應(yīng)率為,25.1%,,運(yùn)用數(shù)據(jù)挖掘模型提升為,70.21%,,因此回應(yīng)率提升了,2.8,倍。,回應(yīng)率講究的是模型“寧缺勿濫”的能力。,回應(yīng)率高并不代表一定是好模型,因?yàn)槿绻脭?shù)據(jù)挖掘模型從一萬(wàn)人中挑出,10,個(gè)最有可能會(huì)買產(chǎn)品的顧客,結(jié)果回應(yīng)率是,100%,,但是卻漏掉了大多數(shù)會(huì)買產(chǎn)品的顧客,因此,還得參考“反查率”這個(gè)指標(biāo)。,2024/11/27,22,Recall,=,預(yù)測(cè)會(huì)違約且實(shí)際違約,/,所有實(shí)際會(huì)違約,=66/(66+185)=26.29%,它的意義在于:預(yù)測(cè)出來(lái)會(huì)違約的人占了總體會(huì)違約的客戶多少百分比。反查率越高,表明犯第二類錯(cuò)誤的可能性越小,那么模型越好。,2024/11/27,23,預(yù)測(cè)值,1,(實(shí)際“會(huì)違約”),0,(實(shí)際“不會(huì)違約”),1,66,28,0,185,721,反查,(recall),:預(yù)測(cè)出來(lái)的小概率事件占總體小概率事件的比例是多少。,完美的預(yù)測(cè)模型反查率是,100%,,但是反查率與回應(yīng)率是互相矛盾的。,recall=67/(67+184),66/(66+185),Response rate=67/(67+38),66/(66+28),2024/11/27,24,預(yù)測(cè)值,1,(實(shí)際“會(huì)違約”),0,(實(shí)際“不會(huì)違約”),1,67,38,0,184,711,預(yù)測(cè)值,1,(實(shí)際值),0,(實(shí)際值),1,66,28,0,185,721,Range reduce,=,預(yù)測(cè)會(huì)違約,/,總體,=(66+28)/(66+28+721+185),=9.4%,間距縮減代表的是根據(jù)模型執(zhí)行活動(dòng)時(shí)的成本,當(dāng)如果名單量沒(méi)有有效縮減時(shí),執(zhí)行的總成本會(huì)很高,因此間距縮減越低越好。,2024/11/27,25,預(yù)測(cè)值,1,(實(shí)際值),0,(實(shí)際值),1,66,28,0,185,721,間距縮減,(range reduce),:通過(guò),DM,模型來(lái)找出小概率事件時(shí),名單縮小了多少。,從上述三個(gè)指標(biāo)來(lái)看,這個(gè)預(yù)測(cè)模型可以讓名單縮減至原來(lái)的9.4%,但是卻只包含了總體26.29%會(huì)違約的人(反查率),讓回應(yīng)率提升了原先的2.8倍。,2024/11/27,26,注意:,很少有模型同時(shí)能夠滿足上述三個(gè)指標(biāo)的要求,當(dāng)回應(yīng)率很高時(shí),一定是篩選高概率族群,因此名單間距縮減一定會(huì)變低,但是會(huì)遺漏掉低概率族群必定會(huì)造成反查降低,所以若只看分類矩陣,找不出最好的模型。,分類矩陣是根據(jù)一個(gè)概率閥值將顧客分作兩種情況,過(guò)度簡(jiǎn)化了實(shí)際的結(jié)果。因?yàn)樗械难菟惴ǔ祟A(yù)測(cè)結(jié)果之外,同時(shí)還會(huì)提供概率值作為排序的基準(zhǔn)。,2024/11/27,27,四、增益圖(靈敏性分析),2024/11/27,28,橫軸百分比代表根據(jù),DM,模型根據(jù)概率由高到低排序后的名單占總體百分比。,縱軸則是在這批名單中小概率事件的人數(shù)占總體小概率事件人數(shù)的百分比。,45,度線表示隨機(jī)的狀態(tài),代表當(dāng)篩選一半的名單去檢查違約狀況時(shí),剛好會(huì)包含全體名單一半的違約戶數(shù)量。,正常模型的增益圖要比,45,度線向第二象限彎曲,越向上彎曲表示模型效果越好。,理想模型線:在增益圖的最上方兩段直線所構(gòu)成的,表示完美預(yù)測(cè)的結(jié)果。,AUC(area under curve),:模型曲線下面的陰影面積與完美模型曲線下面陰影面積的比值。,AUC,越接近于,1,,表示模型的預(yù)測(cè)能力越高。,吉尼系數(shù),=,模型曲線與,45,度線之間的面積,/,完美模型曲線與,45,度線之間的面積,基尼系數(shù)?,吉尼系數(shù)越接近,1,,表示模型的預(yù)測(cè)能力越高。,2024/11/27,29,A

注意事項(xiàng)

本文(數(shù)據(jù)挖掘模型評(píng)估)為本站會(huì)員(tia****g98)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!