实战 \以慕课网日志分析为例 进入大数据 Spark SQL 的世界
收藏

以慕课网日志分析为例 进入大数据 Spark SQL 的世界

难度 中级
时长 18小时
学习人数 913
9.89分
¥ 366.00
  1. 课程介绍
  2. 组合套餐
  3. 课程章节
  4. 售前咨询 27
  5. 用户评价 64
  6. 环境参数

以慕课网日志分析为例 进入大数据 Spark SQL 的世界

  1. 课程介绍
  2. 组合套餐
  3. 课程章节
  4. 售前咨询 27
  5. 用户评价 64
  6. 环境参数
  1. 第1章 初探大数据
    本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识
    1. 1-1 导学
    2. 1-2 -如何学好大数据
    3. 1-3 -开发环境介绍
    4. 1-4 -OOTB镜像文件使用介绍
    5. 1-5 -大数据概述
    6. 1-6 -Hadoop概述
    7. 1-7 -HDFS概述及设计目标
    8. 1-8 -HDFS架构
    9. 1-9 -HDFS副本机制
    10. 1-10 -Hadoop下载及JDK安装
    11. 1-11 -机器参数设置
    12. 1-12 -HDFS核心配置文件内容配置
    13. 1-13 -HDFS格式化及启停
    14. 1-14 -HDFS shell常用操作
    15. 1-15 -HDFS优缺点
    16. 1-16 -MapReduce概述
    17. 1-17 -MapReduce编程模型及WordCount案例
    18. 1-18 -YARN产生背景
    19. 1-19 -YARN架构和执行流程
    20. 1-20 -YARN环境搭建及提交作业到YARN上运行
    21. 1-21 -Hive产生背景及Hive是什么
    22. 1-22 -为什么要使用Hive及Hive发展历程
    23. 1-23 -Hive体系架构及部署架构
    24. 1-24 -Hive环境搭建
    25. 1-25 -Hive基本使用
  2. 第2章 Spark及其生态圈概述
    Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ...
    1. 2-1 -课程目录
    2. 2-2 -Spark概述及特点
    3. 2-3 -Spark产生背景
    4. 2-4 -Spark发展历史
    5. 2-5 -Spark Survey
    6. 2-6 -Spark对比Hadoop
    7. 2-7 -Spark和Hadoop的协作性
  3. 第3章 实战环境搭建
    工欲善其事必先利其器,本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行
    1. 3-1 -课程目录
    2. 3-2 -Spark源码编译
    3. 3-3 补录:Spark源码编译中的坑
    4. 3-4 Spark Local模式环境搭建
    5. 3-5 Spark Standalone模式环境搭建
    6. 3-6 Spark简单使用
  4. 第4章 Spark SQL概述
    Spark SQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构,这几个角度进行展开讲解...
    1. 4-1 课程目录
    2. 4-2 -Spark SQL前世今生
    3. 4-3 -SQL on Hadoop常用框架介绍
    4. 4-4 -Spark SQL概述
    5. 4-5 -Spark SQL愿景
    6. 4-6 -Spark SQL架构
  5. 第5章 从Hive平滑过渡到Spark SQL
    Hive是SQL-on-Hadoop的解决方案和默认的标准,如何将数据处理从Hive过渡到Spark SQL上来是我们必须要掌握的。本章我们将讲解在Spark中操作Hive中的数据几种方式
    1. 5-1 -课程目录
    2. 5-2 -A SQLContext的使用
    3. 5-3 -B HiveContext的使用
    4. 5-4 -C SparkSession的使用
    5. 5-5 spark-shell&spark-sql的使用
    6. 5-6 -thriftserver&beeline的使用
    7. 5-7 -jdbc方式编程访问
  6. 第6章 DateFrame&Dataset
    DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的产生背景、DataFrame对比RDD、DataFrame API操作等方面对DataFrame做详细的编程开发讲解
    1. 6-1 -课程目录
    2. 6-2 -DataFrame产生背景
    3. 6-3 -DataFrame概述
    4. 6-4 -DataFrame和RDD的对比
    5. 6-5 -DataFrame基本API操作
    6. 6-6 -DataFrame与RDD互操作方式一
    7. 6-7 -DataFrame与RDD互操作方式二
    8. 6-8 -DataFrame API操作案例实战
    9. 6-9 -Dataset概述及使用
  7. 第7章 External Data Source
    Spark SQL中的核心功能,可以使用外部数据源非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用外部数据源来操作Hive、Parquet、MySQL中的数据以及综合使用
    1. 7-1 -课程目录
    2. 7-2 -产生背景
    3. 7-3 -概述
    4. 7-4 -目标
    5. 7-5 -操作Parquet文件数据
    6. 7-6 -操作Hive表数据
    7. 7-7 -操作MySQL表数据
    8. 7-8 -Hive和MySQL综合使用
  8. 第8章 SparkSQL愿景
    本章将讲解Spark的愿景:写更少的代码、读更少的数据、让优化器自动优化程序
    1. 8-1 -A SparkSQL愿景之一写更少的代码(代码量和可读性)
    2. 8-2 -B SparkSQL愿景之一写更少的代码(统一访问操作接口)
    3. 8-3 -C SparkSQL愿景之一写更少的代码(强有力的API支持)
    4. 8-4 -D SparkSQL愿景之一些更少的代码(Schema推导)
    5. 8-5 -E SparkSQL愿景之一写更少的代码(Schema Merge)
    6. 8-6 -F SparkSQL愿景之一写更少的代码(Partition Discovery)
    7. 8-7 -G SparkSQL愿景之一写更少的代码(执行速度更快)
    8. 8-8 -SparkSQL愿景之二读取更少的数据
    9. 8-9 -SparkSQL愿景之三让查询优化器帮助我们优化执行效率
    10. 8-10 -SparkSQL愿景总结
  9. 第9章 慕课网日志实战
    本章使用Spark SQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及Spark on YARN。通过本实战项目将Spark SQL中的知识点融会贯通,达到举一反三的效果 ...
    1. 9-1 -课程目录
    2. 9-2 -用户行为日志概述
    3. 9-3 -离线数据处理架构
    4. 9-4 -项目需求
    5. 9-5 imooc网主站日志内容构成
    6. 9-6 数据清洗之第一步原始日志解析
    7. 9-7 -数据清洗之二次清洗概述
    8. 9-8 -数据清洗之日志解析
    9. 9-9 -数据清洗之ip地址解析
    10. 9-10 -数据清洗存储到目标地址
    11. 9-11 -需求一统计功能实现
    12. 9-12 -Scala操作MySQL工具类开发
    13. 9-13 -需求一统计结果写入到MySQL
    14. 9-14 -需求二统计功能实现
    15. 9-15 -需求二统计结果写入到MySQL
    16. 9-16 -需求三统计功能实现
    17. 9-17 -需求三统计结果写入到MySQL
    18. 9-18 -代码重构之删除指定日期已有的数据
    19. 9-19 -功能实现之数据可视化展示概述
    20. 9-20 -ECharts饼图静态数据展示
    21. 9-21 -ECharts饼图动态展示之一查询MySQL中的数据
    22. 9-22 -ECharts饼图动态展示之二鸿运国际hv128
    23. 9-23 -使用Zeppelin进行统计结果的展示
    24. 9-24 -Spark on YARN基础
    25. 9-25 -数据清洗作业运行到YARN上
    26. 9-26 -统计作业运行在YARN上
    27. 9-27 -性能优化之存储格式的选择
    28. 9-28 -性能调优之压缩格式的选择
    29. 9-29 -性能优化之代码优化
    30. 9-30 -性能调优之参数优化
  10. 第10章 Spark SQL扩展和总结
    本章将列举Spark SQL在工作中经常用到的方方方面的总结
    1. 10-1 -课程目录
    2. 10-2 -Spark SQL使用场景
    3. 10-3 -Spark SQL加载数据
    4. 10-4 -DataFrame与SQL的对比
    5. 10-5 -Schema
    6. 10-6 -SaveMode
    7. 10-7 -处理复杂的JSON数据
    8. 10-8 -SQL的覆盖程度
    9. 10-9 -外部数据源
本课程已完结


讲师

Michael__PK 全栈工程师
四年互联网大数据研发经验,五年Java EE研发经验。近年来主要从事Hadoop生态圈和Spark生态圈技术的研发和落地。参与过Spark论文的中文翻译工作,且带队完成北京、上海等省份的移动大数据平台建设。
意见反馈 常见问题 APP下载
官方微信
hv128