来源慕课
讲师Michael_PK 全栈工程师
原价288
时长21小时
更新进度已完结
最近更新：2022年3月20日

Hadoop3基础与电商行为日志分析

643。

2022-03-20 kuaizixue 已收录已售173次关注643次 您当前为普通用户

37￥优惠信息:免费该资源终身VIP免费去升级

暂无演示 QQ咨询

提取码：提取码在下载按钮旁的灰色按钮上(白色字符)，点击复制即可。

本站所有资源均为网盘链接，MP4格式直接保存到网盘播放即可！超清原画，完整无密，包括所有视频，课件，以及源码，官方同步体验！会员全站资源免费，包括后续上传的所有资源，长期学习建议开通会员！点击前往开通会员VIP

Hadoop3基础与电商行为日志分析

Hadoop3基础与电商行为日志分析新手也能学会的大数据入门课（2020版）
本课程从Hadoop核心技术入手，以电商项目为依托，带领你从0基础开始上手，逐步掌握大数据核心技术（如：HDFS、YARN、MapReduce以及Hive），并使用这些技术进行实战，最终完成电商行为日志分析项目，让你轻松入门大数据！

适合人群
对大数据技术感兴趣的在职人员

希望从事大数据工作的零基础高校学生
掌握课程内容，你将轻松步入大数据生态圈
如果想对自己的技术有更进一步提升，
强烈推荐学习已上线的《新一代大数据计算引擎 Flink从入门到实战》
以及《SparkSQL极速入门整合Kudu实现广告业务数据分析》
技术储备要求
熟悉Linux基本命令

了解Java SE的基础知识
了解MySQL的基本使用

1kDfeDkAqIT7wv6T4h8KYSQ

提取码：rjt4

课程目录：

第1章大数据概述

本章将从故事说起，让大家明白大数据是与我们的生活息息相关的，并不是遥不可及的，还会介绍大数据的特性，以及大数据对我们带来的技术变革，大数据处理过程中涉及到的技术以及大数据典型应用。

1-1 课程导学试看

1-2 ***学前必读***（助你平稳踩坑，畅学无忧，课程学习与解决问题指南）

1-3 课程目录

1-4 从一个案例说起

1-5 什么是大数据以及大数据的4V特征试看

1-6 大数据带来的技术变革

1-7 大数据现存的模式

1-8 大数据的技术概念

1-9 大数据带来的挑战

1-10 如何对大数据进行存储和分析

1-11 大数据典型应用

第2章初识Hadoop

本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件、Hadoop发行版的选择，为后续深入讲解Hadoop打下坚实的基础。

2-1 课程目录

2-2 Hadoop概述

2-3 Hadoop核心组件之HDFS概述

2-4 Hadoop核心组件之MapReduce

2-5 Hadoop核心组件之YARN

2-6 Hadoop优势

2-7 Hadoop发展史

2-8 Hadoop生态圈

2-9 Hadoop发行版选型

2-10 OOTB环境的使用

第3章分布式文件系统HDFS

本章将从Hadoop的设计目标、架构及文件系统命令空间出发，快速搭建单节点伪分布式HDFS的实验环境，通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统，详细分析HDFS文件的读写流程，并通过HDFS API来实现词频统计案例，使得大家对Hadoop分布式文件系统HDFS有深刻的认识以及实战。 …

3-1 HDFS概述

3-2 HDFS设计目标

3-3 HDFS架构详解

3-4 文件系统NameSpace详解

3-5 HDFS副本机制

3-6 本课程使用的Linux环境介绍

3-7 Hadoop部署前置介绍

3-8 JDK1.8部署详解

3-9 ssh无密码登陆部署详解

3-10 Hadoop安装目录详解及hadoop-env配置

3-11 HDFS格式化以及启动详解

3-12 HDFS常见文件之防火墙干扰

3-13 Hadoop停止集群以及如何单个进程启动

3-14 Hadoop命令行操作详解

3-15 深度剖析Hadoop文件的存储机制

3-16 HDFS API编程之开发环境搭建

3-17 HDFS API编程之第一个应用程序的开发

3-18 HDFS API编程之jUnit封装

3-19 HDFS API编程之查看HDFS文件内容

3-20 HDFS API编程之创建文件并写入内容

3-21 HDFS API编程之副本系数深度剖析

3-22 HDFS API编程之重命名

3-23 HDFS API编程之copyFromLocalFile

3-24 HDFS API编程之带进度的上传大文件

3-25 HDFS API编程之下载文件

3-26 HDFS API编程之列出文件夹下的所有内容

3-27 HDFS API编程之递归列出文件夹下的所有文件

3-28 HDFS API编程之查看文件块信息

3-29 HDFS API编程之删除文件

3-30 HDFS项目实战之需求分析

3-31 HDFS项目实战之代码框架编写

3-32 HDFS项目实战之自定义上下文

3-33 HDFS项目实战之自定义处理类实现

3-34 HDFS项目实战之功能实现

3-35 HDFS项目实战之使用自定义配置文件重构代码

3-36 HDFS项目实战之使用反射创建自定义Mapper对象

3-37 HDFS项目实战之可插拔的业务逻辑处理

3-38 HDFS Replica Placement Policy

3-39 HDFS写数据流程图解

3-40 HDFS读数据流程图解

3-41 HDFS Checkpoint详解

3-42 HDFS SaveMode

第4章分布式计算框架MapReduce

本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce，掌握MapReduce各个核心组件编程，并通过两个案例让大家深入掌握MapReduce编程的方方面面。

4-1 课程目录

4-2 MapReduce概述

4-3 MapReduce编程模型详解

4-4 MapReduce编程模型核心概念详解

4-5 词频统计之自定义Mapper实现

4-6 词频统计之自定义Reducer实现

4-7 词频统计之自定义Driver类实现

4-8 词频统计之本地方式运行

4-9 词频统计之通过Debug方式进一步了解偏移量以及重构代码

4-10 词频统计升级之Combiner操作试看

4-11 流量统计实战之需求

4-12 流量统计实战之自定义复杂数据类型

4-13 流量统计实战之自定义Mapper类

4-14 流量统计实战之自定义Reducer实现

4-15 流量统计实战之Driver开发

4-16 流量统计实战之代码重构及NullWritable的使用

4-17 流量统计实战升级之自定义Partitioner

第5章资源调度框架YARN

本章将从YARN的产生背景、YARN的架构及执行流程的角度带大家认知Hadoop的资源调度框架YARN，快速搭建单节点伪分布式YARN的实验环境并掌握如何提交MapReduce作业提交到YARN上运行。

5-1 课程目录

5-2 YARN产生背景

5-3 YARN概述

5-4 YARN架构详解

5-5 YARN执行流程

5-6 YARN环境部署

5-7 提交example案例到YARN上运行

5-8 提交流量统计案例到YARN上运行

第6章电商项目实战Hadoop实现

本章将通过电商用户行为日志分析的项目实战，来将前面几个章节讲解的知识点串联起来，综合使用Hadoop的技术进行离线统计分析。

6-1 课程目录

6-2 用户行为日志概述

6-3 为什么要记录用户行为日志

6-4 日志内容介绍

6-5 用户行为日志分析的意义所在

6-6 电商常用术语

6-7 项目需求描述

6-8 数据处理流程及技术架构

6-9 浏览量统计功能实现

6-10 省份浏览量统计之IP库解析

6-11 省份浏览量统计之日志解析

6-12 省份浏览量统计之功能实现

6-13 页面浏览量统计之页面编号获取

6-14 页面浏览量统计之功能实现

6-15 数据处理过程中ETL的重要性

6-16 原始日志ETL操作

6-17 浏览量统计功能升级

6-18 省份浏览量统计功能升级

6-19 页面浏览量统计功能升级思路

6-20 打包到服务器上运行

6-21 项目扩展

第7章数据仓库Hive

本章将从Hive的产生背景、体系架构、Hive部署、DDL以及DML来掌握Hive使用的方方面面。

7-1 课程目录

7-2 Hive产生背景

7-3 Hive是什么

7-4 为什么要使用Hive

7-5 Hive在Hadoop生态圈中的位置

7-6 Hive体系架构

7-7 Hive部署架构

7-8 Hive与RDBMS的区别

7-9 Hive部署

7-10 Hive快速入门

7-11 Hive DDL之数据库操作

7-12 Hive DDL之表操作

7-13 Hive DML之加载和导出数据

7-14 Hive QL基本统计

7-15 Hive QL之聚合函数

7-16 Hive QL之分组函数

7-17 Hive QL之join的使用

7-18 Hive QL执行计划

第8章电商项目实战Hive实现

本章将使用Hive对电商用户行为日志分析进行重新实现，让大家对MapReduce编程和Hive实现的方式进行对比，体会Hive在生产上使用的便捷性。

8-1 课程目录

8-2 外部表在Hive中的使用

8-3 track_info分区表的创建

8-4 将ETL的数据加载到Hive表

8-5 使用Hive完成统计分析功能

8-6 Hive实现项目的方便性体现

第9章 Hadoop分布式集群搭建

本章将带领大家搭建一个三个节点的分布式Hadoop集群环境，让大家对于Hadoop集群的安装有更深入的认识，并将项目实战案例运行在分布式集群环境中。

9-1 课程目录

9-2 Hadoop集群规划

9-3 前置条件安装

9-4 JDK安装

9-5 Hadoop集群部署

9-6 提交作业到Hadoop集群上运行

9-7 课程总结

第10章（彩蛋番外篇）Join在MapReduce中的实现

本章将从SQL中的join入手，详细剖析如何在MapReduce中实现JOIN，这是面试中经常被考察到的点，考察你的MapReduce功底以及优化策略。

10-1 Join概述

10-2 ReduceJoin流程分析

10-3 ReduceJoin功能实现

10-4 MapJoin实现原理

10-5 MapJoin功能实现

第11章（讨论群内直播内容分享）Hadoop小问题剖析

本次分享中，主要针对剖析小文件的产生、对集群带来的影响以及解决方案相关内容进行了讲解。

11-1 小文件问题

11-2 什么是小文件

11-3 小文件怎么产生的

11-4 小文件解决方案（上）

11-5 小文件解决方案（下）

11-6 Hadoop真的凉了吗

第12章（讨论群内直播内容分享）Hadoop的特性在生产上的使用

本次分享主题主要剖析在生产上常用的Hadoop特性，如：小文件、集群间数据拷贝、回收站等。

12-1 文件归档及透明访问

12-2 distcp及scp

12-3 回收站

第13章（彩蛋番外篇）Hadoop3.x新特性及实操

本章中，将带领大家学习里程碑版本hadoop 3.x中带来了哪些新特性；掌握云主机的选型以及如何基于云主机进行Hadoop3.x的部署及使用；同时将升级本课程内容到Hadoop3.2.1。

13-1 课程目录

13-2 如何从官网获取Hadoop3.x新特性

13-3 Hadoop3.x新特性之JDK8

13-4 Hadoop3.x新特性之EC技术详解

13-5 Hadoop3.x新特性之其他

13-6 云服务器及大数据相关产品了解_1

13-7 如何快速选型并开通云主机

13-8 云主机配置修改

13-9 JDK部署

13-10 HDFS部署

13-11 免密码登陆配置

13-12 YARN部署及使用

13-13 Hadoop3.x端口问题分析

13-14 将项目升级运行到Hadoop3.x之上

13-15 云服务器停止及销毁

13-16 本章小结

第14章（彩蛋番外篇）压缩在大数据中的使用

本章中，将向大家介绍，压缩能为我们带来哪些好处，压缩格式以及压缩场景，压缩和解压缩编程实战，Hadoop结合压缩的使用。

14-1 课程目录

14-2 为什么要使用压缩

14-3 压缩的使用场景

14-4 压缩使用的注意事项-

14-5 常见压缩格式-

14-6 Codec详解

14-7 压缩编程实战

14-8 解压缩编程实战

14-9 压缩和解压缩在Hadoop源码中的体现

14-10 Hadoop整合压缩使用之代码设置

14-11 Hadoop整合压缩使用之配置文件设置

14-12 作业

14-13 本章小结

本课程已完结

Hadoop3基础与电商行为日志分析

试看链接：https://pan.baidu.com/s/1kDfeDkAqIT7wv6T4h8KYSQ

提取码：rjt4

常见问题FAQ

kuaizixue VIP

「自学IT网」 zxit666.com

加入自学IT网一起学习吧~

Hadoop3基础与电商行为日志分析

试看链接：https://pan.baidu.com/s/1kDfeDkAqIT7wv6T4h8KYSQ

提取码：rjt4

常见问题FAQ

kuaizixue VIP

「自学IT网」zxit666.com

「自学IT网」 zxit666.com

加入自学IT网一起学习吧~