廣州總校區(qū)切換校區(qū)
復制成功
微信號:togogoi
添加微信好友, 詳細了解課程
已復制成功,如果自動跳轉微信失敗,請前往微信添加好友
打開微信

Spark及Hadoop開發(fā)員

課時總數:24課時

課程介紹


  學習如何使用Hadoop生態(tài)系統(tǒng)關鍵性技術來導入并處理數據。


  在為期4天的培訓中,學員將學習關鍵概念和掌握使用新技術和工具將數據采集到Hadoop集群并進行處理。通過學習掌握諸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術,Hadoop開發(fā)員將具備解決實際大數據問題和挑戰(zhàn)的能力。使用Spark,不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應用和系統(tǒng)架構編寫復雜的并行應用,得以更快速地獲取更優(yōu)的商業(yè)決策,幫助決策人員進行及時應對。

  一.培訓內容

      ●  通過講師在課堂上的講解,以及實操練習,學員將學習以下內容:

      ●  在Hadoop集群上進行分布式存儲和處理數據。

      ●  通過在Hadoop集群上編寫、配置和部署ApacheSpark應用。

      ●  使用Sparkshell進行交互式數據分析。

      ●  使用SparkSQL查詢處理結構化數據。

      ●  使用SparkStreaming處理流式數據。

      ●  使用Flume和Kafka為SparkStreaming采集流式數據。

  二.培訓對象及學員基礎

      ●  本課程適合于具有編程經驗的開發(fā)員及工程師。無需ApacheHadoop基礎。

      ●  培訓內容中對ApacheSpark的介紹所涉及的代碼及練習使用Scala和Python,因此需至少掌握這兩個編程語言中的一種。

      ●  需熟練掌握Linux命令行。

      ●  對SQL有基本了解。

  三.課程大綱

    1.  Hadoop及生態(tài)系統(tǒng)介紹

      ●  ApacheHadoop概述

      ●  數據存儲和攝取

      ●  數據處理

      ●  數據分析和探索

      ●  其他生態(tài)系統(tǒng)工具

      ●  練習環(huán)境及分析應用場景介紹

    2.  ApacheHadoop文件存儲

      ●  傳統(tǒng)大規(guī)模系統(tǒng)的問題

      ●  HDFS體系結構

      ●  使用HDFS

      ●  ApacheHadoop文件格式

    3.  ApacheHadoop集群上的數據處理

      ●  YARN體系結構

      ●  使用YARN

    4.  使用ApacheSqoop導入關系數據

      ●  Sqoop簡介

      ●  數據導入

      ●  導入的文件選項

      ●  數據導出

    5.  ApacheSpark基礎

      ●  什么是ApacheSpark

      ●  使用SparkShell

      ●  RDDs(可恢復的分布式數據集)

      ●  Spark里的函數式編程

    6.  SparkRDD

      ●  創(chuàng)建RDD

      ●  其他一般性RDD操作

    7.  使用鍵值對RDD

      ●  鍵值對RDD

      ●  MapReduce

      ●  其他鍵值對RDD操作

    8.  編寫和運行ApacheSpark應用

      ●  Spark應用對比SparkShell

      ●  創(chuàng)建SparkContext

      ●  創(chuàng)建Spark應用(Scala和Java)

      ●  運行Spark應用

      ●  Spark應用WebUI

    9.  配置ApacheSpark應用

      ●  配置Spark屬性

      ●  運行日志

    10.  ApacheSpark的并行處理

      ●  回顧:集群環(huán)境里的Spark

      ●  RDD分區(qū)

      ●  基于文件RDD的分區(qū)

      ●  HDFS和本地化數據

      ●  執(zhí)行并行操作

      ●  執(zhí)行階段及任務

    11.  Spark持久化

      ●  RDD演變族譜

      ●  RDD持久化簡介

      ●  分布式持久化

    12.  ApacheSpark數據處理的常見模式

      ●  常見Spark應用案例

      ●  迭代式算法

      ●  機器學習

      ●  例子:K-Means

    13.  DataFrames和SparkSQL

      ●  ApacheSparkSQL和SQLContext

      ●  創(chuàng)建DataFrames

      ●  變更及查詢DataFrames

      ●  保存DataFrames

      ●  DataFrames和RDD

      ●  SparkSQL對比Impala和Hive-on-Spark

      ●  Spark2.x版本上的ApacheSparkSQL

    14.  ApacheKafka

      ●  什么是ApacheKafka

      ●  ApacheKafka概述

      ●  如何擴展ApacheKafka

      ●  ApacheKafka集群架構

      ●  ApacheKafka命令行工具

    15.  使用ApacheFlume采集實時數據

      ●  什么是ApacheFlume

      ●  Flume基本體系結構

      ●  Flume源

      ●  Flume槽

      ●  Flume通道

      ●  Flume配置

    16.  集成ApacheFlume和ApacheKafka

      ●  概要

      ●  應用案例

      ●  配置

    17.  ApacheSparkStreaming:DStreams介紹

      ●  ApacheSparkStreaming概述

      ●  例子:Streaming訪問計數

      ●  DStreams

      ●  開發(fā)Streaming應用

    18.  ApacheSparkStreaming:批處理

      ●  批處理操作

      ●  時間分片

      ●  狀態(tài)操作

      ●  滑動窗口操作

    19.  ApacheSparkStreaming:數據源

      ●  Streaming數據源概述

      ●  ApacheFlume和ApacheKafka數據源

      ●  例子:使用Direct模式連接Kafka數據源

    20.  結論


  Cloudera大數據課程體系




<
在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質服務!