課程內容:
(一)基礎理論部分
1.數據分析基礎
(1)數據分析過程概述
(2)概率論與數據統計
(3)抽樣估計與假設檢驗
(4)方差分析(xi)(xi)與回歸分析(xi)(xi)
2.java基礎
(1)JDK的安裝配置,Java基本知識、數據類型以及基本語法
(2)Eclipse的編程入門
(3)面向對象的思想基本介紹,類、對象、接口、封裝、繼承
(4)Java的集合類——數組、Set、List、Map、Queue
(5)異常處理——Checked Exception、Unchecked Exception,如何通過異常信息捕獲錯誤
(6)Java的垃圾回收機制以及多線程簡介
(7)Java的文件操作、包的概念及如何打包
(8)數據庫基礎知識及SQL語法
(9)基(ji)于servlet技(ji)術的B/S應用開發及代(dai)碼實現案例詳解
3.linux基礎
(1)linux的介紹
(2)Linux入門:選擇合適的Linux發行版、如何安裝Linux
(3)linux操作系統命令及使用命令編輯文件
(4)Linux下SSH命令使用方法詳解
(二)hadoop理論課程
1.hadoop安裝配置及運行機制解析
本節是大數據(ju)分(fen)析的(de)環(huan)境搭(da)建課(ke)(ke)程(cheng)(cheng),屬于(yu)操作(zuo)型課(ke)(ke)程(cheng)(cheng),主(zhu)要講(jiang)述如何在(zai)linux單機上面(mian)安裝hadoop的(de)偽(wei)分(fen)布模式,在(zai)linux集群上面(mian)安裝hadoop集群。對于(yu)不熟悉(xi)linux的(de)同學(xue),課(ke)(ke)程(cheng)(cheng)中會簡單的(de)講(jiang)解常(chang)用的(de)linux命令。這(zhe)兩種是必須要掌握的(de)。通(tong)過講(jiang)師手(shou)把手(shou)、面(mian)對面(mian)的(de)交流(liu),教(jiao)會學(xue)員自己搭(da)建一個真實的(de)hadoop環(huan)境,在(zai)此環(huan)境下運(yun)行hadoop自帶(dai)的(de)小(xiao)程(cheng)(cheng)序。主(zhu)要內容包括:
(1)從google的三篇大數據論文說起
(2)Hadoop 概念、版本、歷史
(3)Hadoop 偽分布及集群的詳細安裝步驟
(4)三個hadoop自帶的小例子帶你進入hadoop的世界
(5)使用如何通過命令行和瀏覽器觀察hadoop的運行過程
(6)介紹hadoop的安全模式
(7)如何查(cha)看日志信息
2.Hadoop分布式文件系統深入剖析
本節將對hadoop架構的(de)(de)分布式文件(jian)系統(tong)HADFS進(jin)行深(shen)入的(de)(de)分析(xi),hdfs是(shi)所有hadoop系統(tong)的(de)(de)基礎,它是(shi)hadoop的(de)(de)核(he)心內(nei)(nei)容(rong)之一。主要的(de)(de)內(nei)(nei)容(rong)包(bao)括:
(1)深度分析google的Google GFS 文件系統,一個面向大規模數據密集型應用的、可伸縮的分布式文件系統。
(2)HDFS的概念及設計
(3)Hdfs體系結構及運行機制詳述
(4)NameNode、DataNode、SecondaryNameNode的作用及運行機制
(5)block 的劃分原理、存儲方式和配置文件
(6)hdfs的備份機制和文件管理機制
(7)HDFS文件系統的常用命令
(8)使用命令及JAVA語句操作hdfs中的文件
(9)rpc機制(zhi)簡介及(ji)HADFS中的(de)rpc通信
3.MapReduce理論及實戰
(1)深度分析google的MapReduce編程模型
(2)hadoop中的MapReduce工作原理
(3)通過演示單詞計數程序,詳細講述mapreduce運行過程中類的調用過程
(4)詳細講述如何覆蓋 Mapper 功能、如何覆蓋 Reducer 功能。
(5)MapReduce job的生命周期中job提交、task分發和task執行
(6)MapReduce中block 的調度及作業分配機制
(7)講解hadoop的計數器、排序、分組等算法
(8)通過一個小的應用,詳細介紹如何在eclipse中編寫MapReduce程序,打包成可在hadoop上運行的jar,并在集群上運行
(9)詳細講解運(yun)行結果的分析
4.hadoop生態環境介紹
(1)Hbase簡介,包括HBase的基礎概念 、數據模型、存儲模型及hbase的偽分布和集群的安裝
(2)ZooKeeper簡介,包括ZooKeeper的安裝、運行及示例
(3)Pig簡介,包括Pig的安裝、運行及示例
(4)Hive簡介,包括Hive的安裝、運行及示例
(5)sqoop簡介,包括Sqoop介紹、命令、原理及流程
(6)nosql簡介,包括nosql的(de)概念(nian)、種類及(ji)發(fa)展趨勢
(三)大數據分析思想、工具及實戰案例
1.大數據分析思想介紹
(1)大數據分析的前世今生
(2)幾種典型的大數據架構分析
(3)大數據分析過程描述
(4)大數據時代的數據分析思想(xiang)的變革(ge)
2.Mahout,大數據分析的急先鋒
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一個開源項目,它通過和hadoop配合,實現在推薦、分類等領域中的大數據分析。
(1)Mahout的下載、安裝與部署
(2)UCI經典數據集介紹
(3)使用經典數據集測試和運行Mahout實現的算法
(4)主(zhu)要算(suan)法(fa)包(bao)括:kmeans算(suan)法(fa)、canopy算(suan)法(fa)、dirichlet 算(suan)法(fa)和meanshift算(suan)法(fa)
3.RHadoop,R語言從小數據分析到大數據分析的化麗轉身
(1)R語言簡介
(2)安裝并運行RHadoop
(3)RHadoop的邏輯結構
(4)Rhadoop實戰案例—word cout
(5)與(yu)hadoop word count 函數比較分(fen)析
4.大數據分析項(xiang)目(mu)案例 |