第一講:R語言精要
本著循序漸進而又覆蓋R語言重要而有用的基本內容原則,本講從R語言入門開始,以前期的數據處理為核心,以實際案例為載體,內容包括R語言的向量、數據框、矩陣運算、缺失值和零值的處理、特別注重用R語言構造函數編程解決實際問題,詳細介紹強大的數據清洗整理plyr、zoo、car等常用包和強大的作圖ggplot2包,為使用R語言進行數據挖掘打下扎實的工具基礎。
主要案例:
案例1:如何用R語言plyr等包合并、排序(xu)、分(fen)析數(shu)據(ju)并編(bian)制香農-威納指數(shu);
案例2:如何用R語言編(bian)程同時實現幾十個高難度數據分析(xi)可視(shi)化圖片的jpeg格式輸出;
案例3:如(ru)何使(shi)用R語言進行(xing)分層或者整群抽樣構建訓練集與測試集;
案例4:使用ggplot2畫出各種復(fu)雜的圖形。?
第二講:Logistic回歸與商業大數據建模
Logistic回歸是商業建模的常用重要數據挖掘方法,本講要講清楚Logistic回歸的建模原理、與多元線性模型的區別、R語言實現過程及回歸診斷注意事項、預測方法和結果解釋,讓學員徹底地掌握Logistic回歸解決問題的R語言方法。
2:R數據挖掘(一)
2.1 數據挖掘工業流程
2.2 先修統計知識
2.3 挖掘預處理
2.4 線性回歸
2.5 logistic回歸
2.6 模型評價
主要案例:
?案例(li)1:利用Logistic回(hui)歸幫助商業銀行完成對(dui)客戶提前還貸款情況的預(yu)測(ce);
?案(an)例2:利用Logistic回歸幫助(zhu)醫生對病人選擇(ze)佳治(zhi)療方案(an);
?案(an)例3:利用Logistic回(hui)歸幫助廠家分析顧客做出購買決策的重要因(yin)素;
?案例4:利用Logistic回歸幫助壽險公司(si)進行目標客(ke)戶精準電話營銷;
?案例5:利用Logistic回歸幫助商業(ye)銀行(xing)完成對客戶的信(xin)用評(ping)分;
?案例6:利(li)用Logistic回歸幫助公司分(fen)析(xi)客戶(hu)流失的(de)原因并(bing)做好預測。
第三講:關聯規則和R語言實現
關(guan)聯規(gui)則(著(zhu)名的(de)“啤酒和尿布”)是數據挖掘的(de)基礎和核(he)心技(ji)術之一,本講將著(zhu)重圍繞經典的(de)Apriori算法和eclat算法,闡明關(guan)聯規(gui)則的(de)支持(chi)、置信和提升程度與(yu)控(kong)制,使用R語言快速完成關(guan)聯規(gui)則分析。
主要案例:
案例1:使用R語言關聯規(gui)則方(fang)法幫助各個超市(shi)實現(xian)商(shang)品的佳捆綁銷(xiao)售方(fang)案(即“購物籃”分析);
案例2:泰坦尼(ni)克號(hao)乘(cheng)客幸存的關(guan)聯規(gui)則分析;
案例3:提高個人收(shou)入的(de)關聯分析。
第四講:決策樹(回歸樹)分析和R語言實現
決策樹是數(shu)據(ju)挖(wa)掘(jue)的經典方法,其(qi)原理(li)容(rong)易被理(li)解(jie)。本講主要講授兩種為普遍的決策樹算法:CART和C4.5算法,使用rpart和J48函數(shu)進行R語言分析。
主要案例:
案例1:對汽車耗油量進行決策樹分析并完成相(xiang)關目標變量的預(yu)測;
案例2:使用決(jue)策(ce)樹幫助電信局(ju)判斷和(he)預測(ce)客戶辦理寬帶業務。
第五講:機器集成學習的Bagging和AdaBoost算法
這兩種方法將(jiang)許多(duo)分(fen)類器的(de)預測結果進(jin)行匯總分(fen)析,從而達到顯著提(ti)升分(fen)類效果。本講介紹(shao)這2種算(suan)法的(de)思(si)想,在R語(yu)言(yan)中構(gou)造訓練(lian)集和測試集進(jin)一步進(jin)行分(fen)析。
主要案例:
案例1:用R語言(yan)的(de)Bagging和AdaBoost進(jin)行商(shang)業銀行定期存款的(de)分(fen)析和預測;
案例2:用(yong)R語言的(de)Bagging和(he)AdaBoost識別(bie)有毒蘑菇。
第六講:R語言隨機森林(RandomForest)算法
在機(ji)(ji)器學(xue)習中,隨(sui)機(ji)(ji)森林(lin)是一個包含(han)多個決策樹的(de)(de)分類器,本(ben)講講清隨(sui)機(ji)(ji)森林(lin)方法的(de)(de)原理,以致在實際中幫助學(xue)員判斷(duan)適合進(jin)行隨(sui)機(ji)(ji)森林(lin)分析的(de)(de)情況(kuang),終熟練掌握R語言隨(sui)機(ji)(ji)森林(lin)分析的(de)(de)方法。
主要案例:
案例1:對皮膚病進(jin)行隨機森林的分(fen)類和預測;
案(an)例2:對酒(jiu)的(de)品質和(he)種類進行分類和(he)評價(jia)。
第七講:支持向量機和R語言的實現
本講將分析(xi)支(zhi)持向量機的結構風險小原理(li)、間隔和核(he)函數(shu),從而幫(bang)助學員(yuan)深刻理(li)解支(zhi)持向量機的思想和算法,以及使用中注(zhu)意的問題(ti),從而幫(bang)助學員(yuan)靈活(huo)地應(ying)用于(yu)各(ge)個領域。
主要案例:
案例1:對(dui)著(zhu)名的鳶尾(wei)花(hua)數據進行支持向(xiang)量機的分(fen)析;
案例2:使用支持向量機識別有毒(du)蘑菇;
案例3:使用支持向量機進行(xing)股票指(zhi)數預測。
第八講:神經網絡和R語言的實現
神經(jing)網絡(luo)由大量的(de)節點和(he)輸出函數構成邏輯策略,本講介紹其原理(li),主要通過案(an)例的(de)方(fang)式講解R語言實現神經(jing)網絡(luo)算法的(de)過程和(he)注意的(de)事項。
主要案例:
案例1:酒(jiu)的(de)品質和(he)(he)種類的(de)神經網(wang)絡的(de)分析和(he)(he)預測(ce);
案例2:公司財務預警建模。
第九講:交叉驗證比較各個模型
對(dui)于(yu)同一個數據,可能有很多模型來(lai)擬(ni)合(he),如何衡量和比較模型的精度呢(ni)?本講將介(jie)紹交叉驗證訓練集和測試(shi)集的方法來(lai)幫助大家在(zai)實際中選取佳模型進行擬(ni)合(he)和預測
第十講:使用R語言結合KNN算法進行文本挖掘
文本(ben)挖掘(jue),特(te)別是對中(zhong)文的(de)文本(ben)挖掘(jue)日趨重要。本(ben)講介(jie)紹文本(ben)挖掘(jue)的(de)原理和方法,幫助大家使用(yong)(yong)R語言在大量的(de)非結(jie)構化的(de)數據中(zhong)發現有價值的(de)信息,抽取潛在有用(yong)(yong)的(de)數據,發現適合(he)模式,實現可視化結(jie)果(guo)展(zhan)示。
主要案例:
案例:使用R語言結合KNN算法對網頁(Web)進行文本挖掘(含分詞、分類、可視化等)
|