共建课程|《数据采集与预处理》

作者: 时间:2025-03-11 点击数:


一、 课程基本信息

课程名称

数据采集与预处理

总学时

64

理论学时

24

实践学时

40

预备知识

熟悉Python语言基础

二、课程简介

本课程是本岗位的核心课程之一,教授学生如何获取各种类型的数据并进行必要的清洗和处理,使其符合后续分析和建模的要求。内容主要包括数据采集与存储方法、数据清洗和处理、数据规范化和转换以及数据可视化等方面的内容。学生将使用Python编程语言来实现数据采集和预处理过程,并掌握各种常见的数据探查与处理技术和方法,为后续的数据建模与应用打下坚实的基础

三、课程目标

1. 知识目标

1.1 掌握互联网大数据采集及数据存储的相关技术

1.2 掌握数据探索和数据处理的相关技术

1.3 了解常用的统计方法和工具,以及如何应用它们来分析和解释数据

2. 技能目标

2.1 熟悉典型数据采集的技术原理、技术框架及实现方法

2.2 熟悉常用本地文本、数据库的操作

2.3 具备数据探索和数据处理的能力

2.4 具备数据可视化的技能,能够使用图像和有效地传达数据探查的结果

2.5 能够独立完成从数据采集到数据探查与预处理的全过程操作

3. 素质目标

3.1 建立团队协助、团队互助等意识

3.2 养成持续学习和创新意识

四、课程内容

序号

学时

教学方法

1

数据采集与预处理概述

数据采集与预处理概述

1

讲解

实验1:搭建Python开发环境

2

上机实验

2

本地文件数据的存储与查询

文件相关信息获取

4

讲解+演示

文本文件的数据存储

结构化文本数据存储

特定应用程序数据存储

实验1:热销菜品信息存储

4

上机实验

实验2信息获取与格式转换

能力考核1P0101-电视剧评分排行信息存储

/

能力考核

能力考核2P0102-智能问答机器人数据整理

3

数据库的存储与查询

数据库基础

4

讲解+演示

使用Python操作MySQL数据库

使用Python操作Redis数据库

使用Python操作MongoDB数据库

实验1:客户信息的存储与查询

6

上机实验

实验2商品库存管理

实验3图书信息的存储与统计

能力考核1P0103-电影信息的存储

/

能力考核

4

网络数据采集技术

urllib 模块的使用

5

讲解+演示

requests 模块的使用

API接口数据采集

网页数据的解析与提取

常见的反爬措施

使用爬虫框架进行数据采集

实验1:文本信息的获取

6

上机实验

实验2肯德基门店信息的获取

实验3股票信息的获取

能力考核1P0104-城市信息查询

/

能力考核

能力考核2P0105-电影排行数据的采集

5

NumPy-数据处理基础工具

NumPy基础

3

讲解+演示

数组的索引与切片

利用NumPy进行数据处理

实验1:统计数组的基本信息

2

上机实验

能力考核1P0201-糖尿病患者数据集的统计

/

能力考核

6

Pandas-处理结构化数据

Series和DataFrame对象

2

讲解+演示

利用Pandas进行数据处理

实验1泰坦尼克号数据集中缺失值与重复值的处理

2

上机实验

能力考核1P0202-航空数据相关性与数据分布探查

/

能力考核

7

数据可视化技术

Matplotlib数据可视化

3

讲解+演示

Seaborn数据可视化

pyecharts数据可视化

实验1:词云可视化

6

上机实验

实验2酒店预订数据集探索

实验3星巴克全球门店分布图的绘制

能力考核1P0203-汽车销量数据可视化

/

能力考核

能力考核2P0204-全球疫情数据可视化

8

数据预处理

数据探索

2

讲解+演示

数据预处理

实验1:经济发展和环境状况数据处理-标准化和归一化处理

6

上机实验

实验2岗位招聘信息处理-文本数值化处理

实验3:人口数据信息处理-离散化和分箱处理

实验4鸢尾花数据集处理-数据集的拆分

能力考核1P0205-泰坦尼克号遇难数据集整理

/

能力考核

9

综合案例

实验1:汽车进口数据集探索

6

上机实验

实验2收入水平数据集处理

实验3:淋巴系统造影检测结果数据集处理

课时合计:

48

 

五、课程考核

本课程考核方式包括理论考核(占50%)和实践考核(占50%)两部分:

理论考核采用笔试考试(或在线答题),满分100分,采用选择、填空、判断、问答等题型,从配套题库中抽取。

实践考核采用所有作业的平均成绩,满分100分。评分方法参考各作业任务书。

六、参考书

Python3网络爬虫开发实战 (第2版),崔庆才,人民邮电出版社,2021年11月01日

Python数据分析与可视化案例教程,余本国,人民邮电出版社,2022年06月01日

Copyright © 2017-2020   武汉晴川学院   鄂ICP备10004916号   地址:湖北省武汉市东湖新技术开发区中华科技产业园玉屏大道9号   邮编:430204