學習如何使用Hadoop生態(tài)系統(tǒng)關鍵性技術來導入并處理數(shù)據(jù)。
在為期4天的培訓中,學員將學習關鍵概念和掌握使用新技術和工具將數(shù)據(jù)采集到Hadoop集群并進行處理。通過學習掌握諸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術,Hadoop開發(fā)員將具備解決實際大數(shù)據(jù)問題和挑戰(zhàn)的能力。使用Spark,不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應用和系統(tǒng)架構編寫復雜的并行應用,得以更快速地獲取更優(yōu)的商業(yè)決策,幫助決策人員進行及時應對。 一.培訓內容 ● 通過講師在課堂上的講解,以及實操練習,學員將學習以下內容: ● 在Hadoop集群上進行分布式存儲和處理數(shù)據(jù)。 ● 通過在Hadoop集群上編寫、配置和部署ApacheSpark應用。 ● 使用Sparkshell進行交互式數(shù)據(jù)分析。 ● 使用SparkSQL查詢處理結構化數(shù)據(jù)。 ● 使用SparkStreaming處理流式數(shù)據(jù)。 ● 使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。 二.培訓對象及學員基礎 ● 本課程適合于具有編程經(jīng)驗的開發(fā)員及工程師。無需ApacheHadoop基礎。 ● 培訓內容中對ApacheSpark的介紹所涉及的代碼及練習使用Scala和Python,因此需至少掌握這兩個編程語言中的一種。 ● 需熟練掌握Linux命令行。 ● 對SQL有基本了解。 三.課程大綱 1. Hadoop及生態(tài)系統(tǒng)介紹 ● ApacheHadoop概述 ● 數(shù)據(jù)存儲和攝取 ● 數(shù)據(jù)處理 ● 數(shù)據(jù)分析和探索 ● 其他生態(tài)系統(tǒng)工具 ● 練習環(huán)境及分析應用場景介紹 2. ApacheHadoop文件存儲 ● 傳統(tǒng)大規(guī)模系統(tǒng)的問題 ● HDFS體系結構 ● 使用HDFS ● ApacheHadoop文件格式 3. ApacheHadoop集群上的數(shù)據(jù)處理 ● YARN體系結構 ● 使用YARN 4. 使用ApacheSqoop導入關系數(shù)據(jù) ● Sqoop簡介 ● 數(shù)據(jù)導入 ● 導入的文件選項 ● 數(shù)據(jù)導出 5. ApacheSpark基礎 ● 什么是ApacheSpark ● 使用SparkShell ● RDDs(可恢復的分布式數(shù)據(jù)集) ● Spark里的函數(shù)式編程 6. SparkRDD ● 創(chuàng)建RDD ● 其他一般性RDD操作 7. 使用鍵值對RDD ● 鍵值對RDD ● MapReduce ● 其他鍵值對RDD操作 8. 編寫和運行ApacheSpark應用 ● Spark應用對比SparkShell ● 創(chuàng)建SparkContext ● 創(chuàng)建Spark應用(Scala和Java) ● 運行Spark應用 ● Spark應用WebUI 9. 配置ApacheSpark應用 ● 配置Spark屬性 ● 運行日志 10. ApacheSpark的并行處理 ● 回顧:集群環(huán)境里的Spark ● RDD分區(qū) ● 基于文件RDD的分區(qū) ● HDFS和本地化數(shù)據(jù) ● 執(zhí)行并行操作 ● 執(zhí)行階段及任務 11. Spark持久化 ● RDD演變族譜 ● RDD持久化簡介 ● 分布式持久化 12. ApacheSpark數(shù)據(jù)處理的常見模式 ● 常見Spark應用案例 ● 迭代式算法 ● 機器學習 ● 例子:K-Means 13. DataFrames和SparkSQL ● ApacheSparkSQL和SQLContext ● 創(chuàng)建DataFrames ● 變更及查詢DataFrames ● 保存DataFrames ● DataFrames和RDD ● SparkSQL對比Impala和Hive-on-Spark ● Spark2.x版本上的ApacheSparkSQL 14. ApacheKafka ● 什么是ApacheKafka ● ApacheKafka概述 ● 如何擴展ApacheKafka ● ApacheKafka集群架構 ● ApacheKafka命令行工具 15. 使用ApacheFlume采集實時數(shù)據(jù) ● 什么是ApacheFlume ● Flume基本體系結構 ● Flume源 ● Flume槽 ● Flume通道 ● Flume配置 16. 集成ApacheFlume和ApacheKafka ● 概要 ● 應用案例 ● 配置 17. ApacheSparkStreaming:DStreams介紹 ● ApacheSparkStreaming概述 ● 例子:Streaming訪問計數(shù) ● DStreams ● 開發(fā)Streaming應用 18. ApacheSparkStreaming:批處理 ● 批處理操作 ● 時間分片 ● 狀態(tài)操作 ● 滑動窗口操作 19. ApacheSparkStreaming:數(shù)據(jù)源 ● Streaming數(shù)據(jù)源概述 ● ApacheFlume和ApacheKafka數(shù)據(jù)源 ● 例子:使用Direct模式連接Kafka數(shù)據(jù)源 20. 結論
Cloudera大數(shù)據(jù)課程體系
