大數據建模與分析挖掘應用培訓大綱
業界主流的數據(ju)倉庫工具和大數據(ju)分析挖掘工具
1. 業界(jie)主流的基(ji)于(yu)Hadoop和Spark的大數據分析挖掘(jue)項(xiang)目(mu)解決方案
2. 業(ye)界數(shu)據倉庫(ku)與(yu)數(shu)據分析挖掘平臺軟件工(gong)具
3. Hadoop數據(ju)倉(cang)庫工具Hive
4. Spark實時(shi)數(shu)據(ju)倉庫工具SparkSQL
5. Hadoop數據分析挖掘工具Mahout
6. Spark機器學習(xi)與數(shu)據分析挖掘(jue)工(gong)具MLlib
7. 大數據分(fen)析挖掘項目的實施步驟
大數據分(fen)析(xi)挖掘項目(mu)的數據集(ji)成操作訓練
1. 日志數據解析(xi)和(he)導入導出到數據倉庫的操作訓練
2. 從原始搜索(suo)數據(ju)(ju)集中抽取、集成數據(ju)(ju),整理后形成規范的數據(ju)(ju)倉庫
3. 數(shu)據分析挖掘(jue)模塊從大型的集中式數(shu)據倉庫中訪(fang)問數(shu)據,一個(ge)數(shu)據倉庫面向一個(ge)主(zhu)題,構建兩個(ge)數(shu)據倉庫
4. 同一個(ge)數(shu)據(ju)(ju)倉(cang)庫(ku)中的事實表(biao)數(shu)據(ju)(ju),可以給多個(ge)不同類型的分析挖掘任務(wu)調用
5. 去除噪聲
基于Hadoop的(de)大型數據倉庫管理平(ping)臺—HIVE數據倉庫集群(qun)的(de)多維分析(xi)建模應用實(shi)踐
6. 基于Hadoop的大(da)型分布式數(shu)據(ju)倉(cang)庫在(zai)行(xing)業(ye)中的數(shu)據(ju)倉(cang)庫應用案(an)例(li)
7. Hive數據倉庫集群(qun)的(de)平臺體(ti)系結構、核(he)心技術剖析
8. Hive Server的工作原理、機制與應用
9. Hive數(shu)據(ju)倉庫(ku)集群的安裝部署與配置優(you)化
10. Hive應用開發技巧
11. Hive SQL剖(pou)析與應用實(shi)踐
12. Hive數(shu)據倉庫表(biao)與(yu)表(biao)分區、表(biao)操作、數(shu)據導(dao)入導(dao)出(chu)、客(ke)戶(hu)端操作技(ji)巧(qiao)
13. Hive數據倉庫報表設計(ji)
14. 將(jiang)原始的(de)日志數(shu)據集(ji)(ji),經過(guo)整理后,加載至Hadoop + Hive數(shu)據倉庫(ku)集(ji)(ji)群中,用于共享(xiang)訪問
Spark大(da)數據分析挖掘平臺(tai)實踐(jian)操(cao)作訓練(lian)
15. Spark大數據分析挖掘平臺的部署配置
16. Spark數(shu)據分(fen)析庫(ku)MLlib的開(kai)發(fa)部署
17. Spark數據(ju)分(fen)析挖掘示例操作,從Hive表中讀取數據(ju)并在(zai)分(fen)布式內存中運行(xing)
聚類分析建模(mo)與挖掘算法的實現原理和技術應(ying)用
18. 聚類分析建模與算法原理(li)及其在Spark MLlib中的實現與應用,包括:
a) Canopy聚(ju)類(canopy clustering)
b) K均(jun)值(zhi)算(suan)法(K-means clustering)
c) 模糊K均值(Fuzzy K-means clustering)
d) EM聚類,即期望大化聚類(Expectation Maximization)
e) 以上算法在Spark MLib中的實現(xian)原理和實際場景中的應用案例(li)。
19. Spark聚類(lei)分析(xi)算法程序示例
分類分析建模與挖掘算法的(de)實現(xian)原理和技術應用(yong)
20. 分(fen)類分(fen)析(xi)建模與(yu)算法原理及(ji)其(qi)在Spark MLlib中的(de)實(shi)現與(yu)應用, 包(bao)括:
f) Spark決策樹(shu)算法(fa)實現
g) 邏輯回歸算法(logistics regression)
h) 貝葉斯算法(Bayesian與Cbeyes)
i) 支持向量機(ji)(Support vector machine)
j) 以上(shang)算法在(zai)Spark MLlib中(zhong)的實(shi)現(xian)原理和實(shi)際場景(jing)中(zhong)的應(ying)用案例。
21. Spark客(ke)戶資料分析(xi)與給用(yong)戶貼標簽的程(cheng)序示例
22. Spark實現(xian)給(gei)商品貼標簽的程序示例
23. Spark實現用戶行為的(de)自動(dong)標簽和深度技(ji)術
關聯分析建模與挖掘算法的實(shi)現原理(li)和技術應用(yong)
24. 預測、推薦分析建(jian)模與(yu)算法原理及(ji)其在Spark MLlib中的實現與(yu)應用(yong),包(bao)括:
k) Spark頻(pin)繁模式挖掘算法(parallel FP Growth Algorithm)應(ying)用
l) Spark關聯規則(ze)挖掘(Apriori)算法及其應用
m) 以上算法在Spark MLib中的實(shi)現原理和(he)實(shi)際場景(jing)中的應用案例。
25. Spark關(guan)聯分(fen)析(xi)程(cheng)序(xu)示例
推薦分(fen)析挖(wa)掘(jue)模(mo)型與(yu)算法(fa)技術應(ying)用
26. 推薦算法原(yuan)理及其在Spark MLlib中的實現與應用,包括(kuo):
a) Spark協同(tong)過濾(lv)算法程序示例
b) Item-based協同過濾與推薦
c) User-based協同過濾(lv)與推薦
d) 交(jiao)叉銷售推薦模型及其實現
回(hui)歸分析模型與預(yu)測算(suan)法
27. 利用(yong)線性回(hui)(hui)歸(多元回(hui)(hui)歸)實現訪問量(liang)預測
28. 利用非線(xian)性(xing)回歸預測(ce)成交(jiao)量和訪問量的關系
29. 基于R+Spark實現回歸分析(xi)模型及其應用操作(zuo)
30. Spark回(hui)歸程序(xu)實現異常點檢(jian)測(ce)的程序(xu)示例(li)
圖關系(xi)建(jian)模與(yu)分析(xi)挖掘及其鏈(lian)接分析(xi)和(he)社交(jiao)分析(xi)操(cao)作
31. 利(li)用Spark GraphX實現網頁鏈(lian)接分析,計算網頁重(zhong)要性排名
32. 實現信息(xi)傳(chuan)播的(de)社交關系(xi)傳(chuan)遞分(fen)析,互聯(lian)網用(yong)戶(hu)的(de)行(xing)為(wei)關系(xi)分(fen)析任務(wu)的(de)操(cao)作訓練(lian)
神(shen)經網絡與(yu)深度學習算法模(mo)型及(ji)其應用實踐
33. 神經網絡算法Neural Network的實現方法和挖(wa)掘模型應(ying)用
34. 基于人工(gong)神經網絡的深度學習的訓練過程
a) 傳統神經網絡的訓(xun)練方法(fa)
b) Deep Learning的訓練(lian)方(fang)法
35. 深度學(xue)習的常用模型和方法
a) CNN(Convolutional Neural Network)卷積神經網絡
b) RNN(Recurrent Neural Network)循環(huan)神(shen)經(jing)網絡(luo)模型(xing)
c) Restricted Boltzmann Machine(RBM)限(xian)制波爾(er)茲曼機
36. 基(ji)于Spark的深度(du)學習算法模型庫的應用程(cheng)序(xu)示例(li) |