爆乳喷水动漫一区二区三区,国产在线精品高清亚洲二区,国产xxxx69真实实拍

Spark及Hadoop開發(fā)員

課時(shí)總數(shù)：24課時(shí)

課程介紹

　　學(xué)習(xí)如何使用Hadoop生態(tài)系統(tǒng)關(guān)鍵性技術(shù)來導(dǎo)入并處理數(shù)據(jù)。

　　在為期4天的培訓(xùn)中，學(xué)員將學(xué)習(xí)關(guān)鍵概念和掌握使用新技術(shù)和工具將數(shù)據(jù)采集到Hadoop集群并進(jìn)行處理。通過學(xué)習(xí)掌握諸如Spark（包括SparkStreaming和SparkSQL）、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術(shù)，Hadoop開發(fā)員將具備解決實(shí)際大數(shù)據(jù)問題和挑戰(zhàn)的能力。使用Spark，不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應(yīng)用和系統(tǒng)架構(gòu)編寫復(fù)雜的并行應(yīng)用，得以更快速地獲取更優(yōu)的商業(yè)決策，幫助決策人員進(jìn)行及時(shí)應(yīng)對(duì)。

　　一．培訓(xùn)內(nèi)容

　　    ● 通過講師在課堂上的講解，以及實(shí)操練習(xí)，學(xué)員將學(xué)習(xí)以下內(nèi)容：

　　    ● 在Hadoop集群上進(jìn)行分布式存儲(chǔ)和處理數(shù)據(jù)。

　　    ● 通過在Hadoop集群上編寫、配置和部署ApacheSpark應(yīng)用。

　　    ● 使用Sparkshell進(jìn)行交互式數(shù)據(jù)分析。

　　    ● 使用SparkSQL查詢處理結(jié)構(gòu)化數(shù)據(jù)。

　　    ● 使用SparkStreaming處理流式數(shù)據(jù)。

　　    ● 使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。

　　二．培訓(xùn)對(duì)象及學(xué)員基礎(chǔ)

　　    ● 本課程適合于具有編程經(jīng)驗(yàn)的開發(fā)員及工程師。無需ApacheHadoop基礎(chǔ)。

　　    ● 培訓(xùn)內(nèi)容中對(duì)ApacheSpark的介紹所涉及的代碼及練習(xí)使用Scala和Python，因此需至少掌握這兩個(gè)編程語言中的一種。

　　    ● 需熟練掌握Linux命令行。

　　    ● 對(duì)SQL有基本了解。

　　三．課程大綱

　　 1. Hadoop及生態(tài)系統(tǒng)介紹

　　    ● ApacheHadoop概述

　　    ● 數(shù)據(jù)存儲(chǔ)和攝取

　　    ● 數(shù)據(jù)處理

　　    ● 數(shù)據(jù)分析和探索

　　    ● 其他生態(tài)系統(tǒng)工具

　　    ● 練習(xí)環(huán)境及分析應(yīng)用場景介紹

　　 2. ApacheHadoop文件存儲(chǔ)

　　    ● 傳統(tǒng)大規(guī)模系統(tǒng)的問題

　　    ● HDFS體系結(jié)構(gòu)

　　    ● 使用HDFS

　　    ● ApacheHadoop文件格式

　　 3. ApacheHadoop集群上的數(shù)據(jù)處理

　　    ● YARN體系結(jié)構(gòu)

　　    ● 使用YARN

　　 4. 使用ApacheSqoop導(dǎo)入關(guān)系數(shù)據(jù)

　　    ● Sqoop簡介

　　    ● 數(shù)據(jù)導(dǎo)入

　　    ● 導(dǎo)入的文件選項(xiàng)

　　    ● 數(shù)據(jù)導(dǎo)出

　　 5. ApacheSpark基礎(chǔ)

　　    ● 什么是ApacheSpark

　　    ● 使用SparkShell

　　    ● RDDs(可恢復(fù)的分布式數(shù)據(jù)集）

　　    ● Spark里的函數(shù)式編程

　　 6. SparkRDD

　　    ● 創(chuàng)建RDD

　　    ● 其他一般性RDD操作

　　 7. 使用鍵值對(duì)RDD

　　    ● 鍵值對(duì)RDD

　　    ● MapReduce

　　    ● 其他鍵值對(duì)RDD操作

　　 8. 編寫和運(yùn)行ApacheSpark應(yīng)用

　　    ● Spark應(yīng)用對(duì)比SparkShell

　　    ● 創(chuàng)建SparkContext

　　    ● 創(chuàng)建Spark應(yīng)用（Scala和Java）

　　    ● 運(yùn)行Spark應(yīng)用

　　    ● Spark應(yīng)用WebUI

　　 9. 配置ApacheSpark應(yīng)用

　　    ● 配置Spark屬性

　　    ● 運(yùn)行日志

　　 10. ApacheSpark的并行處理

　　    ● 回顧：集群環(huán)境里的Spark

　　    ● RDD分區(qū)

　　    ● 基于文件RDD的分區(qū)

　　    ● HDFS和本地化數(shù)據(jù)

　　    ● 執(zhí)行并行操作

　　    ● 執(zhí)行階段及任務(wù)

　　 11. Spark持久化

　　    ● RDD演變族譜

　　    ● RDD持久化簡介

　　    ● 分布式持久化

　　 12. ApacheSpark數(shù)據(jù)處理的常見模式

　　    ● 常見Spark應(yīng)用案例

　　    ● 迭代式算法

　　    ● 機(jī)器學(xué)習(xí)

　　    ● 例子：K－Means

　　 13. DataFrames和SparkSQL

　　    ● ApacheSparkSQL和SQLContext

　　    ● 創(chuàng)建DataFrames

　　    ● 變更及查詢DataFrames

　　    ● 保存DataFrames

　　    ● DataFrames和RDD

　　    ● SparkSQL對(duì)比Impala和Hive-on-Spark

　　    ● Spark2.x版本上的ApacheSparkSQL

　　 14. ApacheKafka

　　    ● 什么是ApacheKafka

　　    ● ApacheKafka概述

　　    ● 如何擴(kuò)展ApacheKafka

　　    ● ApacheKafka集群架構(gòu)

　　    ● ApacheKafka命令行工具

　　 15. 使用ApacheFlume采集實(shí)時(shí)數(shù)據(jù)

　　    ● 什么是ApacheFlume

　　    ● Flume基本體系結(jié)構(gòu)

　　    ● Flume源

　　    ● Flume槽

　　    ● Flume通道

　　    ● Flume配置

　　 16. 集成ApacheFlume和ApacheKafka

　　    ● 概要

　　    ● 應(yīng)用案例

　　    ● 配置

　　 17. ApacheSparkStreaming：DStreams介紹

　　    ● ApacheSparkStreaming概述

　　    ● 例子：Streaming訪問計(jì)數(shù)

　　    ● DStreams

　　    ● 開發(fā)Streaming應(yīng)用

　　 18. ApacheSparkStreaming：批處理

　　    ● 批處理操作

　　    ● 時(shí)間分片

　　    ● 狀態(tài)操作

　　    ● 滑動(dòng)窗口操作

　　 19. ApacheSparkStreaming：數(shù)據(jù)源

　　    ● Streaming數(shù)據(jù)源概述

　　    ● ApacheFlume和ApacheKafka數(shù)據(jù)源

　　    ● 例子：使用Direct模式連接Kafka數(shù)據(jù)源

　　 20. 結(jié)論

　　Cloudera大數(shù)據(jù)課程體系