第一講:R語言精要
本著循序漸進而又覆蓋R語言重要而有用的基本內容原則,本講從R語言入門開始,以前期的數據處理為核心,以實際案例為載體,內容包括R語言的向量、數據框、矩陣運算、缺失值和零值的處理、特別注重用R語言構造函數編程解決實際問題,為使用R語言進行數據挖掘打下扎實的工具基礎。
主要案例:
案例1:如何(he)用R語言編(bian)程(cheng)同(tong)時實現幾(ji)十個高難度數據分析(xi)可視化圖(tu)片(pian)的jpeg格式輸出;
案例2:如何使(shi)用R語言進行(xing)分(fen)層或(huo)者整群抽樣構建(jian)訓練集與測試集;
第二講:Logistic回歸與商業大數據建模
Logistic回歸是商業建模的常用重要數據挖掘方法,本講要講清楚Logistic回歸的建模原理、與多元線性模型的區別、R語言實現過程及回歸診斷注意事項、預測方法和結果解釋,讓學員徹底地掌握Logistic回歸解決問題的R語言方法。
2:R數據挖掘(一)
2.1 數據挖掘工業流程
2.2 先修統計知識
2.3 挖掘預處理
2.4 線性回歸
2.5 logistic回歸
2.6 模型評價
主要案例:
?案例1:利用Logistic回(hui)歸幫助(zhu)商業銀(yin)行完成對(dui)客戶提前還貸款(kuan)情(qing)況的預測;
?案例2:利(li)用Logistic回歸幫(bang)助廠家分析顧(gu)客(ke)做出購買決策(ce)的重要(yao)因素;
第三講:關聯規則和R語言實現
關聯規(gui)則(ze)(著名的“啤酒和尿(niao)布”)是(shi)數據挖掘的基礎和核心技術之(zhi)一(yi),本講將闡(chan)明關聯規(gui)則(ze)的支持、置(zhi)信和提升程度與控制,使(shi)用R語(yu)言快速(su)完成關聯規(gui)則(ze)分(fen)析。
第四講:決策樹(回歸樹)分析和R語言實現
決(jue)策樹是數據(ju)挖掘(jue)的(de)經典方法,其原(yuan)理容易被理解。本講主要講授兩種為普遍(bian)的(de)決(jue)策樹算法:使用rpart函數進行(xing)R語言分析。
主要案例:
案(an)例:對汽車(che)耗(hao)油量(liang)進(jin)行決策樹分析(xi)并(bing)完成相關目標變(bian)量(liang)的預測;
第五講:機器集成學習算法
本講介(jie)紹(shao)這種算法的思想,在(zai)R語言中構造訓(xun)練集(ji)(ji)和測(ce)試集(ji)(ji)進(jin)(jin)一步進(jin)(jin)行分析。
主要案例:
案例1:用R語言的Bagging和AdaBoost進行(xing)商業銀行(xing)定期(qi)存款的分析和預測;
案例2:用R語言的Bagging和AdaBoost識別有毒蘑菇。
第六講:R語言隨機森林(RandomForest)算法
在(zai)機器(qi)學習中,隨機森(sen)林(lin)是一個(ge)(ge)包含多個(ge)(ge)決策樹(shu)的(de)分類(lei)器(qi),本講講清隨機森(sen)林(lin)方(fang)(fang)法(fa)的(de)原(yuan)理,以致在(zai)實際中幫助學員判斷適合(he)進行隨機森(sen)林(lin)分析的(de)情況(kuang),終熟練(lian)掌握R語言(yan)隨機森(sen)林(lin)分析的(de)方(fang)(fang)法(fa)。
主要案例:
案例:對乳(ru)腺癌進行隨機森林(lin)的分(fen)類和預(yu)測(ce);
第七講:支持向量機和R語言的實現
本講(jiang)將分析(xi)支持(chi)向量機的(de)結構風險(xian)小原(yuan)理(li)、間(jian)隔(ge)和核函數,從(cong)而(er)幫助(zhu)學(xue)員(yuan)深刻理(li)解支持(chi)向量機的(de)思想和算(suan)法,以及使用(yong)中注(zhu)意的(de)問題(ti),從(cong)而(er)幫助(zhu)學(xue)員(yuan)靈活地應(ying)用(yong)于各個(ge)領域。
第八講:神經網絡和R語言的實現
神(shen)經網(wang)(wang)絡由(you)大量的節點和(he)輸出函數構成邏輯策略,本講介(jie)紹其原理,主(zhu)要通過(guo)案例的方式講解R語言(yan)實現神(shen)經網(wang)(wang)絡算法的過(guo)程(cheng)和(he)注意的事項。
第九講:交叉驗證比較各個模型
對于(yu)同一(yi)個(ge)數據,可能有很多模型(xing)來擬合,如何(he)衡量和比較模型(xing)的精度呢?本講將介(jie)紹交叉驗證訓練集和測試集的方(fang)法來幫(bang)助大(da)家在實際(ji)中選(xuan)取佳模型(xing)進行擬合和預測
第十講:使用R語言挖掘
幫助大(da)家使用R語(yu)言在大(da)量的(de)數(shu)據(ju)中(zhong)發(fa)現(xian)有價值的(de)信息,抽取潛在有用的(de)數(shu)據(ju),發(fa)現(xian)適合模式(shi),實現(xian)可視化(hua)結果展示。
|