學(xué)習(xí)如何使用Hadoop生態(tài)系統(tǒng)關(guān)鍵性技術(shù)來(lái)導(dǎo)入并處理數(shù)據(jù)。
在為期4天的培訓(xùn)中,學(xué)員將學(xué)習(xí)關(guān)鍵概念和掌握使用新技術(shù)和工具將數(shù)據(jù)采集到Hadoop集群并進(jìn)行處理。通過(guò)學(xué)習(xí)掌握諸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術(shù),Hadoop開發(fā)員將具備解決實(shí)際大數(shù)據(jù)問題和挑戰(zhàn)的能力。使用Spark,不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應(yīng)用和系統(tǒng)架構(gòu)編寫復(fù)雜的并行應(yīng)用,得以更快速地獲取更優(yōu)的商業(yè)決策,幫助決策人員進(jìn)行及時(shí)應(yīng)對(duì)。 一.培訓(xùn)內(nèi)容 ● 通過(guò)講師在課堂上的講解,以及實(shí)操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容: ● 在Hadoop集群上進(jìn)行分布式存儲(chǔ)和處理數(shù)據(jù)。 ● 通過(guò)在Hadoop集群上編寫、配置和部署ApacheSpark應(yīng)用。 ● 使用Sparkshell進(jìn)行交互式數(shù)據(jù)分析。 ● 使用SparkSQL查詢處理結(jié)構(gòu)化數(shù)據(jù)。 ● 使用SparkStreaming處理流式數(shù)據(jù)。 ● 使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。 二.培訓(xùn)對(duì)象及學(xué)員基礎(chǔ) ● 本課程適合于具有編程經(jīng)驗(yàn)的開發(fā)員及工程師。無(wú)需ApacheHadoop基礎(chǔ)。 ● 培訓(xùn)內(nèi)容中對(duì)ApacheSpark的介紹所涉及的代碼及練習(xí)使用Scala和Python,因此需至少掌握這兩個(gè)編程語(yǔ)言中的一種。 ● 需熟練掌握Linux命令行。 ● 對(duì)SQL有基本了解。 三.課程大綱 1. Hadoop及生態(tài)系統(tǒng)介紹 ● ApacheHadoop概述 ● 數(shù)據(jù)存儲(chǔ)和攝取 ● 數(shù)據(jù)處理 ● 數(shù)據(jù)分析和探索 ● 其他生態(tài)系統(tǒng)工具 ● 練習(xí)環(huán)境及分析應(yīng)用場(chǎng)景介紹 2. ApacheHadoop文件存儲(chǔ) ● 傳統(tǒng)大規(guī)模系統(tǒng)的問題 ● HDFS體系結(jié)構(gòu) ● 使用HDFS ● ApacheHadoop文件格式 3. ApacheHadoop集群上的數(shù)據(jù)處理 ● YARN體系結(jié)構(gòu) ● 使用YARN 4. 使用ApacheSqoop導(dǎo)入關(guān)系數(shù)據(jù) ● Sqoop簡(jiǎn)介 ● 數(shù)據(jù)導(dǎo)入 ● 導(dǎo)入的文件選項(xiàng) ● 數(shù)據(jù)導(dǎo)出 5. ApacheSpark基礎(chǔ) ● 什么是ApacheSpark ● 使用SparkShell ● RDDs(可恢復(fù)的分布式數(shù)據(jù)集) ● Spark里的函數(shù)式編程 6. SparkRDD ● 創(chuàng)建RDD ● 其他一般性RDD操作 7. 使用鍵值對(duì)RDD ● 鍵值對(duì)RDD ● MapReduce ● 其他鍵值對(duì)RDD操作 8. 編寫和運(yùn)行ApacheSpark應(yīng)用 ● Spark應(yīng)用對(duì)比SparkShell ● 創(chuàng)建SparkContext ● 創(chuàng)建Spark應(yīng)用(Scala和Java) ● 運(yùn)行Spark應(yīng)用 ● Spark應(yīng)用WebUI 9. 配置ApacheSpark應(yīng)用 ● 配置Spark屬性 ● 運(yùn)行日志 10. ApacheSpark的并行處理 ● 回顧:集群環(huán)境里的Spark ● RDD分區(qū) ● 基于文件RDD的分區(qū) ● HDFS和本地化數(shù)據(jù) ● 執(zhí)行并行操作 ● 執(zhí)行階段及任務(wù) 11. Spark持久化 ● RDD演變族譜 ● RDD持久化簡(jiǎn)介 ● 分布式持久化 12. ApacheSpark數(shù)據(jù)處理的常見模式 ● 常見Spark應(yīng)用案例 ● 迭代式算法 ● 機(jī)器學(xué)習(xí) ● 例子:K-Means 13. DataFrames和SparkSQL ● ApacheSparkSQL和SQLContext ● 創(chuàng)建DataFrames ● 變更及查詢DataFrames ● 保存DataFrames ● DataFrames和RDD ● SparkSQL對(duì)比Impala和Hive-on-Spark ● Spark2.x版本上的ApacheSparkSQL 14. ApacheKafka ● 什么是ApacheKafka ● ApacheKafka概述 ● 如何擴(kuò)展ApacheKafka ● ApacheKafka集群架構(gòu) ● ApacheKafka命令行工具 15. 使用ApacheFlume采集實(shí)時(shí)數(shù)據(jù) ● 什么是ApacheFlume ● Flume基本體系結(jié)構(gòu) ● Flume源 ● Flume槽 ● Flume通道 ● Flume配置 16. 集成ApacheFlume和ApacheKafka ● 概要 ● 應(yīng)用案例 ● 配置 17. ApacheSparkStreaming:DStreams介紹 ● ApacheSparkStreaming概述 ● 例子:Streaming訪問計(jì)數(shù) ● DStreams ● 開發(fā)Streaming應(yīng)用 18. ApacheSparkStreaming:批處理 ● 批處理操作 ● 時(shí)間分片 ● 狀態(tài)操作 ● 滑動(dòng)窗口操作 19. ApacheSparkStreaming:數(shù)據(jù)源 ● Streaming數(shù)據(jù)源概述 ● ApacheFlume和ApacheKafka數(shù)據(jù)源 ● 例子:使用Direct模式連接Kafka數(shù)據(jù)源 20. 結(jié)論
Cloudera大數(shù)據(jù)課程體系