課程內容:
(一)基礎理論部分
1.數據分析基礎
(1)數據分析過程概述
(2)概率論與數據統計
(3)抽樣估計與假設檢驗
(4)方差分(fen)析與回歸分(fen)析
2.java基礎
(1)JDK的安裝配置,Java基本知識、數據類型以及基本語法
(2)Eclipse的編程入門
(3)面向對象的思想基本介紹,類、對象、接口、封裝、繼承
(4)Java的集合類——數組、Set、List、Map、Queue
(5)異常處理——Checked Exception、Unchecked Exception,如何通過異常信息捕獲錯誤
(6)Java的垃圾回收機制以及多線程簡介
(7)Java的文件操作、包的概念及如何打包
(8)數據庫基礎知識及SQL語法
(9)基于servlet技術的B/S應用(yong)開(kai)發及代碼實現案例詳解
3.linux基礎
(1)linux的介紹
(2)Linux入門:選擇合適的Linux發行版、如何安裝Linux
(3)linux操作系統命令及使用命令編輯文件
(4)Linux下(xia)SSH命令使用方法詳解
(二)hadoop理論課程
1.hadoop安裝配置及運行機制解析
本節是(shi)大數據分(fen)(fen)析(xi)的(de)(de)(de)環(huan)境(jing)搭建(jian)課程(cheng),屬于操作型課程(cheng),主(zhu)要(yao)講述如何(he)在(zai)linux單機上面(mian)安(an)裝(zhuang)hadoop的(de)(de)(de)偽分(fen)(fen)布模(mo)式,在(zai)linux集(ji)群(qun)上面(mian)安(an)裝(zhuang)hadoop集(ji)群(qun)。對(dui)于不熟悉linux的(de)(de)(de)同學(xue),課程(cheng)中會(hui)簡單的(de)(de)(de)講解(jie)常用的(de)(de)(de)linux命(ming)令。這兩種是(shi)必須要(yao)掌握的(de)(de)(de)。通過講師手(shou)把手(shou)、面(mian)對(dui)面(mian)的(de)(de)(de)交流,教會(hui)學(xue)員自己(ji)搭建(jian)一(yi)個真實的(de)(de)(de)hadoop環(huan)境(jing),在(zai)此環(huan)境(jing)下運行hadoop自帶的(de)(de)(de)小(xiao)程(cheng)序(xu)。主(zhu)要(yao)內(nei)容(rong)包(bao)括:
(1)從google的三篇大數據論文說起
(2)Hadoop 概念、版本、歷史
(3)Hadoop 偽分布及集群的詳細安裝步驟
(4)三個hadoop自帶的小例子帶你進入hadoop的世界
(5)使用如何通過命令行和瀏覽器觀察hadoop的運行過程
(6)介紹hadoop的安全模式
(7)如何查(cha)看日志信息
2.Hadoop分布式文件系統深入剖析
本節將對(dui)hadoop架(jia)構(gou)的分(fen)布式(shi)文件系統(tong)HADFS進行(xing)深入的分(fen)析(xi),hdfs是所有hadoop系統(tong)的基礎,它是hadoop的核心內容之一。主要的內容包括:
(1)深度分析google的Google GFS 文件系統,一個面向大規模數據密集型應用的、可伸縮的分布式文件系統。
(2)HDFS的概念及設計
(3)Hdfs體系結構及運行機制詳述
(4)NameNode、DataNode、SecondaryNameNode的作用及運行機制
(5)block 的劃分原理、存儲方式和配置文件
(6)hdfs的備份機制和文件管理機制
(7)HDFS文件系統的常用命令
(8)使用命令及JAVA語句操作hdfs中的文件
(9)rpc機制簡介及HADFS中的rpc通信
3.MapReduce理論及實戰
(1)深度分析google的MapReduce編程模型
(2)hadoop中的MapReduce工作原理
(3)通過演示單詞計數程序,詳細講述mapreduce運行過程中類的調用過程
(4)詳細講述如何覆蓋 Mapper 功能、如何覆蓋 Reducer 功能。
(5)MapReduce job的生命周期中job提交、task分發和task執行
(6)MapReduce中block 的調度及作業分配機制
(7)講解hadoop的計數器、排序、分組等算法
(8)通過一個小的應用,詳細介紹如何在eclipse中編寫MapReduce程序,打包成可在hadoop上運行的jar,并在集群上運行
(9)詳細講解運行結(jie)果的分析
4.hadoop生態環境介紹
(1)Hbase簡介,包括HBase的基礎概念 、數據模型、存儲模型及hbase的偽分布和集群的安裝
(2)ZooKeeper簡介,包括ZooKeeper的安裝、運行及示例
(3)Pig簡介,包括Pig的安裝、運行及示例
(4)Hive簡介,包括Hive的安裝、運行及示例
(5)sqoop簡介,包括Sqoop介紹、命令、原理及流程
(6)nosql簡介,包括nosql的概念、種類及發展趨(qu)勢
(三)大數據分析思想、工具及實戰案例
1.大數據分析思想介紹
(1)大數據分析的前世今生
(2)幾種典型的大數據架構分析
(3)大數據分析過程描述
(4)大(da)數據時代的(de)數據分(fen)析思(si)想的(de)變革
2.Mahout,大數據分析的急先鋒
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一個開源項目,它通過和hadoop配合,實現在推薦、分類等領域中的大數據分析。
(1)Mahout的下載、安裝與部署
(2)UCI經典數據集介紹
(3)使用經典數據集測試和運行Mahout實現的算法
(4)主要算(suan)法(fa)(fa)包括:kmeans算(suan)法(fa)(fa)、canopy算(suan)法(fa)(fa)、dirichlet 算(suan)法(fa)(fa)和meanshift算(suan)法(fa)(fa)
3.RHadoop,R語言從小數據分析到大數據分析的化麗轉身
(1)R語言簡介
(2)安裝并運行RHadoop
(3)RHadoop的邏輯結構
(4)Rhadoop實戰案例—word cout
(5)與hadoop word count 函(han)數比較分析
4.大數據分析項目案例 |