Hadoop 系统入门+核心精讲
本课程带领你从Hadoop入门开始,逐步掌握大数据核心技术(HDFS、YARN、MapReduce、Hive开发与调优),并将这些技术应用到实战中,最终完成电商行为日志分析项目,助力探索高薪职业赛道。
-
第1章 大数据概述 试看12 节 | 58分钟
本章将从故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的技术以及大数据典型应用。
- 视频:1-1 课程导学 (14:27)试看
- 图文:1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南)
- 视频:1-3 课程目录 (01:52)
- 视频:1-4 从一个案例说起 (03:54)
- 视频:1-5 什么是大数据以及大数据的4V特征 (08:30)试看
- 视频:1-6 大数据带来的技术变革 (05:37)
- 视频:1-7 大数据现存的模式 (02:29)
- 视频:1-8 大数据的技术概念 (08:47)
- 视频:1-9 大数据带来的挑战 (04:18)
- 视频:1-10 如何对大数据进行存储和分析 (03:54)
- 视频:1-11 大数据典型应用 (03:14)
- 作业:1-12 【讨论题】谈谈你对大数据就业岗位的认知
-
第2章 初识Hadoop10 节 | 63分钟
本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件、Hadoop发行版的选择,为后续深入讲解Hadoop打下坚实的基础。
- 视频:2-1 课程目录 (02:48)
- 视频:2-2 Hadoop概述 (14:21)
- 视频:2-3 Hadoop核心组件之HDFS概述 (07:07)
- 视频:2-4 Hadoop核心组件之MapReduce (05:02)
- 视频:2-5 Hadoop核心组件之YARN (02:44)
- 视频:2-6 Hadoop优势 (03:03)
- 视频:2-7 Hadoop发展史 (06:06)
- 视频:2-8 Hadoop生态圈 (06:32)
- 视频:2-9 Hadoop发行版选型 (07:39)
- 视频:2-10 OOTB环境的使用 (06:43)
-
第3章 分布式文件系统HDFS42 节 | 286分钟
本章将从Hadoop的设计目标、架构及文件系统命令空间出发,快速搭建单节点伪分布式HDFS的实验环境,通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程,并通过HDFS API来实现词频统计案例,使得大家对Hadoop分布式文件系统HDFS有深刻的认识以及实战。 …
- 视频:3-1 HDFS概述 (08:45)
- 视频:3-2 HDFS设计目标 (10:17)
- 视频:3-3 HDFS架构详解 (15:36)
- 视频:3-4 文件系统NameSpace详解 (03:14)
- 视频:3-5 HDFS副本机制 (04:33)
- 视频:3-6 本课程使用的Linux环境介绍 (14:13)
- 视频:3-7 Hadoop部署前置介绍 (10:26)
- 视频:3-8 JDK1.8部署详解 (06:32)
- 视频:3-9 ssh无密码登陆部署详解 (07:42)
- 视频:3-10 Hadoop安装目录详解及hadoop-env配置 (09:23)
- 视频:3-11 HDFS格式化以及启动详解 (11:48)
- 视频:3-12 HDFS常见文件之防火墙干扰 (03:53)
- 视频:3-13 Hadoop停止集群以及如何单个进程启动 (03:48)
- 视频:3-14 Hadoop命令行操作详解 (14:47)
- 视频:3-15 深度剖析Hadoop文件的存储机制 (07:56)
- 视频:3-16 HDFS API编程之开发环境搭建 (10:00)
- 视频:3-17 HDFS API编程之第一个应用程序的开发 (08:57)
- 视频:3-18 HDFS API编程之jUnit封装 (05:41)
- 视频:3-19 HDFS API编程之查看HDFS文件内容 (02:04)
- 视频:3-20 HDFS API编程之创建文件并写入内容 (02:19)
- 视频:3-21 HDFS API编程之副本系数深度剖析 (05:25)
- 视频:3-22 HDFS API编程之重命名 (02:01)
- 视频:3-23 HDFS API编程之copyFromLocalFile (01:59)
- 视频:3-24 HDFS API编程之带进度的上传大文件 (05:26)
- 视频:3-25 HDFS API编程之下载文件 (01:44)
- 视频:3-26 HDFS API编程之列出文件夹下的所有内容 (04:58)
- 视频:3-27 HDFS API编程之递归列出文件夹下的所有文件 (04:03)
- 视频:3-28 HDFS API编程之查看文件块信息 (04:29)
- 视频:3-29 HDFS API编程之删除文件 (01:59)
- 视频:3-30 HDFS项目实战之需求分析 (03:38)
- 视频:3-31 HDFS项目实战之代码框架编写 (13:17)
- 视频:3-32 HDFS项目实战之自定义上下文 (03:58)
- 视频:3-33 HDFS项目实战之自定义处理类实现 (04:19)
- 视频:3-34 HDFS项目实战之功能实现 (02:59)
- 视频:3-35 HDFS项目实战之使用自定义配置文件重构代码 (10:26)
- 视频:3-36 HDFS项目实战之使用反射创建自定义Mapper对象 (04:43)
- 视频:3-37 HDFS项目实战之可插拔的业务逻辑处理 (02:06)
- 视频:3-38 HDFS Replica Placement Policy (10:07)
- 视频:3-39 HDFS写数据流程图解 (10:39)
- 视频:3-40 HDFS读数据流程图解 (05:09)
- 视频:3-41 HDFS Checkpoint详解 (14:36)
- 视频:3-42 HDFS SaveMode (05:17)
-
第4章 分布式计算框架MapReduce17 节 | 128分钟
本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce各个核心组件编程,并通过两个案例让大家深入掌握MapReduce编程的方方面面。
- 视频:4-1 课程目录 (02:28)
- 视频:4-2 MapReduce概述 (05:27)
- 视频:4-3 MapReduce编程模型详解 (09:52)
- 视频:4-4 MapReduce编程模型核心概念详解 (08:14)
- 视频:4-5 词频统计之自定义Mapper实现 (12:13)
- 视频:4-6 词频统计之自定义Reducer实现 (07:37)
- 视频:4-7 词频统计之自定义Driver类实现 (17:15)
- 视频:4-8 词频统计之本地方式运行 (02:29)
- 视频:4-9 词频统计之通过Debug方式进一步了解偏移量以及重构代码 (06:43)
- 视频:4-10 词频统计升级之Combiner操作 (12:55)试看
- 视频:4-11 流量统计实战之需求 (06:48)
- 视频:4-12 流量统计实战之自定义复杂数据类型 (04:22)
- 视频:4-13 流量统计实战之自定义Mapper类 (04:22)
- 视频:4-14 流量统计实战之自定义Reducer实现 (02:24)
- 视频:4-15 流量统计实战之Driver开发 (06:56)
- 视频:4-16 流量统计实战之代码重构及NullWritable的使用 (01:48)
- 视频:4-17 流量统计实战升级之自定义Partitioner (15:08)
-
第5章 资源调度框架YARN8 节 | 61分钟
本章将从YARN的产生背景、YARN的架构及执行流程的角度带大家认知Hadoop的资源调度框架YARN,快速搭建单节点伪分布式YARN的实验环境并掌握如何提交MapReduce作业提交到YARN上运行。
- 视频:5-1 课程目录 (02:28)
- 视频:5-2 YARN产生背景 (08:07)
- 视频:5-3 YARN概述 (06:43)
- 视频:5-4 YARN架构详解 (09:29)
- 视频:5-5 YARN执行流程 (04:50)
- 视频:5-6 YARN环境部署 (08:33)
- 视频:5-7 提交example案例到YARN上运行 (09:33)
- 视频:5-8 提交流量统计案例到YARN上运行 (10:27)
-
第6章 电商项目实战Hadoop实现21 节 | 127分钟
本章将通过电商用户行为日志分析的项目实战,来将前面几个章节讲解的知识点串联起来,综合使用Hadoop的技术进行离线统计分析。
- 视频:6-1 课程目录 (02:29)
- 视频:6-2 用户行为日志概述 (10:58)
- 视频:6-3 为什么要记录用户行为日志 (02:17)
- 视频:6-4 日志内容介绍 (05:42)
- 视频:6-5 用户行为日志分析的意义所在 (04:53)
- 视频:6-6 电商常用术语 (03:58)
- 视频:6-7 项目需求描述 (02:02)
- 视频:6-8 数据处理流程及技术架构 (07:11)
- 视频:6-9 浏览量统计功能实现 (11:25)
- 视频:6-10 省份浏览量统计之IP库解析 (05:11)
- 视频:6-11 省份浏览量统计之日志解析 (08:38)
- 视频:6-12 省份浏览量统计之功能实现 (11:44)
- 视频:6-13 页面浏览量统计之页面编号获取 (06:12)
- 视频:6-14 页面浏览量统计之功能实现 (04:40)
- 视频:6-15 数据处理过程中ETL的重要性 (04:20)
- 视频:6-16 原始日志ETL操作 (09:22)
- 视频:6-17 浏览量统计功能升级 (01:17)
- 视频:6-18 省份浏览量统计功能升级 (03:51)
- 视频:6-19 页面浏览量统计功能升级思路 (00:29)
- 视频:6-20 打包到服务器上运行 (10:02)
- 视频:6-21 项目扩展 (09:33)
-
第7章 数据仓库Hive19 节 | 103分钟
本章将从Hive的产生背景、体系架构、Hive部署、DDL以及DML来掌握Hive使用的方方面面。
- 视频:7-1 课程目录 (02:58)
- 视频:7-2 Hive产生背景 (05:01)
- 视频:7-3 Hive是什么 (05:51)
- 视频:7-4 为什么要使用Hive (03:53)
- 视频:7-5 Hive在Hadoop生态圈中的位置 (01:43)
- 视频:7-6 Hive体系架构 (07:05)
- 视频:7-7 Hive部署架构 (07:30)
- 视频:7-8 Hive与RDBMS的区别 (02:42)
- 视频:7-9 Hive部署 (08:08)
- 视频:7-10 Hive快速入门 (06:58)
- 视频:7-11 Hive DDL之数据库操作 (12:37)
- 视频:7-12 Hive DDL之表操作 (09:25)
- 视频:7-13 Hive DML之加载和导出数据 (09:15)
- 视频:7-14 Hive QL基本统计 (03:08)
- 视频:7-15 Hive QL之聚合函数 (02:25)
- 视频:7-16 Hive QL之分组函数 (06:07)
- 视频:7-17 Hive QL之join的使用 (03:39)
- 视频:7-18 Hive QL执行计划 (03:47)
- 作业:7-19 【讨论题】Hive高可用架构的思考
-
第8章 电商项目实战Hive实现7 节 | 39分钟
本章将使用Hive对电商用户行为日志分析进行重新实现,让大家对MapReduce编程和Hive实现的方式进行对比,体会Hive在生产上使用的便捷性。
- 视频:8-1 课程目录 (01:40)
- 视频:8-2 外部表在Hive中的使用 (07:19)
- 视频:8-3 track_info分区表的创建 (03:36)
- 视频:8-4 将ETL的数据加载到Hive表 (11:03)
- 视频:8-5 使用Hive完成统计分析功能 (09:55)
- 视频:8-6 Hive实现项目的方便性体现 (04:51)
- 作业:8-7 【讨论题】大数据处理过程中关于血缘关系的思考
-
第9章 Hadoop分布式集群搭建8 节 | 38分钟
本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,让大家对于Hadoop集群的安装有更深入的认识,并将项目实战案例运行在分布式集群环境中。
- 视频:9-1 课程目录 (01:35)
- 视频:9-2 Hadoop集群规划 (04:39)
- 视频:9-3 前置条件安装 (04:12)
- 视频:9-4 JDK安装 (04:20)
- 视频:9-5 Hadoop集群部署 (14:56)
- 视频:9-6 提交作业到Hadoop集群上运行 (02:30)
- 视频:9-7 课程总结 (05:29)
- 作业:9-8 【讨论题】关于Hadoop高可用架构的思考
梦想思维优质互联网资源分享平台 » Hadoop 系统入门+核心精讲