期间会根据学生的知识、技能的不足,有针对性的进行课程讲解 主要内容说明: 项目目标介绍和hadoop环境介绍:讲解项目目标和hadoop生态技术环境。 介绍大数据生态系统和数据处理技术:大数据概念和挑战,数据处理技术的演变和现状 安装和配置 Flume、Hive、HDFS、Storm 和 Spark 环境:下载和安装各项软件,配置环境变量,启动并测试每个组件的运行状态 配置一个简单的数据管道,将数据从 Flume 传输到 HDFS:创建一个简单的 Flume 配置文件,启动 Flume agent,确保数据正确传输到 HDFS 深入了解 Flume 的基本概念和工作原理:Flume 架构和组件,事件流和数据流 配置 Flume 代理来收集实时数据:定义源、通道和目的地,配置拦截器和转换器 使用 Flume 实现日志文件的实时收集和传输:监控指定日志文件夹,将日志数据传输到 HDFS 学习 HDFS 的基本架构和工作原理:HDFS 的概念和特点,NameNode 和 DataNode 的角色和功能 使用 HDFS Shell 和 Hadoop File API 来管理文件和目录:创建、删除、移动和复制文件,查看文件内容和权限 实践使用 HDFS 存储 Flume 收集的数据:将 Flume 收集的数据存储到 HDFS 中,使用命令行和 API 操作 HDFS 中的数据 学习 Hive 的基本概念和数据模型:Hive 的概念和体系结构,HiveQL 查询语言和数据类型 创建和管理 Hive 数据表,包括内部表和外部表:创建表和加载数据,管理表的分区和存储格式 使用 Hive 进行数据查询和分析,包括复杂的 SQL 查询:编写和执行简单和复杂的查询,使用内置函数和用户定义函数进行数据分析 了解 Storm 的实时流处理概念和架构:Storm 的核心概念和组件,Topology 和 Spout/Bolt 的角色和功能 开发和部署基本的 Storm 拓扑结构:编写 Spout 和 Bolt 组件,定义和提交拓扑到 Storm 集群 实现 Storm 拓扑来处理实时数据流,并将结果存储到 HDFS 或 Hive 中:配置 Spout 来读取数据流,编写 Bolt 来处理数据,将结果数据存储到 HDFS 或 Hive 中 学习 Spark 的基本概念和核心组件:Spark 的概念和架构,RDD、DataFrame 和 Dataset 的区别和用途 使用 Spark Shell 和 Spark API 进行数据操作和分析:启动 Spark Shell,使用 Scala、Python 或 Java 编写 Spark 应用程序。 实训学生分组并分配任务:分配分组任务 ,然后学生根据任务完成余下功能提高实战能力。 案例1、电话业务都开通的、只开通电话业务的和只开通网络业务的客户的客户流失柱状图:讲解第一个需求思路,学生分组实现对应功能 答疑并指导实现将分析数据结果制作成效果图显示:案例一答疑和指导 案例2、用户流失分析思路并使用多柱状图显示:讲解第一个需求思路,学生分组实现对应功能 答疑并指导实现将分析数据结果制作成效果图显示:案例二答疑和指导 案例3:各项细分服务对用户流失造成怎样的影响:讲解第二个需求思路,学生分组实现对应功能 答疑并指导实现将分析数据结果制作成效果图显示:案例三答疑和指导 案例4、用户关系属性以及用户消费行为属性:讲解第四个需求思路,学生分组实现对应功能 答疑并指导实现将分析数据结果制作成效果图显示:案例四答疑和指导 案例5、用户职业、月消费与用户流失之间的相关性:讲解第五个需求思路,学生分组实现对应功能 答疑并指导实现将分析数据结果制作成效果图显示:案例五答疑和指导 案例6:用户职业、总消费与用户流失之间的相关性:讲解第六个需求思路,学生分组实现对应功能 答疑并指导实现将分析数据结果制作成效果图显示:案例六答疑和指导 指导各组项目发布最终测试:指导各组打包并完成功能测试。 答辩准备:安排学生小组制作ppt和总结准备答辩。 项目答辩:学生小组完成答辩并讲解收获。 |