书籍详情
数据采集与预处理
作者:周勇,杨倩,廖宁,余秋莲 编
出版社:西安电子科技大学出版社
出版时间:2022-02-01
ISBN:9787560663562
定价:¥42.00
购买这本书可以去
内容简介
随着国家大数据相关政策、规划的密集出台,大数据、人工智能商业落地速度加快,其在各个领域的应用也越来越广泛,其中面向企业服务、金融、医疗健康、电子政务、电子商务等细分领域的大数据应用展现出巨大的潜力。大数据是需要新处理模式才能适应的海量、高增长率和多样化的信息资产,被誉为“未来的新石油”,以至于数据的获取、存储、搜索、共享、分析以及可视化呈现都成为当前重要的研究课题。本书重点讲述数据采集与预处理的相关内容,并以真实案例介绍不同数据源的采集方式及基本的数据预处理方法。全书共lO章。其中,第1章为概述,第2~5章介绍静态网页数据爬取,第6章介绍动态网页数据爬取,第7、8章介绍爬虫(Scrapy)框架应用,第9章介绍数据预处理,第10章给出了一个综合项目实训。本书可作为高校数据科学与大数据技术专业相关课程的教材或教学参考书,也可作为人工智能、大数据领域从业者的自学参考书。
作者简介
暂缺《数据采集与预处理》作者简介
目录
第1章 概述
1.1 大数据采集
1.1.1 大数据来源
1.1.2 大数据采集方式
1.1.3 数据预处理
1.2 网络爬虫原理和分类
1.2.1 爬虫原理
1.2.2 爬虫分类
1.2.3 常用爬虫工具
1.3 网络爬虫法律规范
1.3.1 数据隐私保护
1.3.2 Robots协议
1.3.3 法律法规
本章小结
本章习题
第2章 Python基础
2,1 Python环境搭建
2.1.1 Python解释器
2.1.2 PyCharm的安装
2.2 Python基础
2.2.1 Python语法基础
2.2.2 数据类型
2.2.3 程序结构
2.2.4 函数
2.2.5 面向对象
本章小结
本章习题
第3章 静态网页爬取
3.1 HTTP协议概述
3.1.1 请求响应模型
3.1.2 请求报文
3.1.3 响应报文
3.2 使用Requests库提取网页数据
3.2.1 Requests库的安装
3.2.2 Requests库的请求方法
3.2.3 使用Requests库发送GET请求
3.2.4 使用Requests库发送POST请求
3.2.5 Requests库的响应对象
3.2.6 HTTP状态码
3.2.7 定制请求头
3.2.8 Requests库发送GET请求的通用代码
3.3 使用urllib库提取网页数据
3.3.1 使用urllib库发送GET请求
3.3.2 使用urllib库发送POST请求
3.3.3 urllib库的用户代理
3.4 案例1 QQ表情包图片爬取
3.4.1 任务描述
3.4.2 任务分析
3.4.3 任务实现
3.5 案例 2手机号码归属地查询
3.5.1 任务描述
3.5.2 任务分析
3.5.3 任务实现
本章小结
本章习题
第4章 网页解析
4.1 使用BeautifulSoup解析网页
4.1.1 BeautifulSoup库的安装
4.1.2 BeautifulSoup解析器
……
第5章 数据存储
第6章 动态网页爬取
第7章 Scrpay框架初探
第8章 Scrpay框架深入
第9章 数据预处理
第10章 招聘网站数据分析
参考文献
1.1 大数据采集
1.1.1 大数据来源
1.1.2 大数据采集方式
1.1.3 数据预处理
1.2 网络爬虫原理和分类
1.2.1 爬虫原理
1.2.2 爬虫分类
1.2.3 常用爬虫工具
1.3 网络爬虫法律规范
1.3.1 数据隐私保护
1.3.2 Robots协议
1.3.3 法律法规
本章小结
本章习题
第2章 Python基础
2,1 Python环境搭建
2.1.1 Python解释器
2.1.2 PyCharm的安装
2.2 Python基础
2.2.1 Python语法基础
2.2.2 数据类型
2.2.3 程序结构
2.2.4 函数
2.2.5 面向对象
本章小结
本章习题
第3章 静态网页爬取
3.1 HTTP协议概述
3.1.1 请求响应模型
3.1.2 请求报文
3.1.3 响应报文
3.2 使用Requests库提取网页数据
3.2.1 Requests库的安装
3.2.2 Requests库的请求方法
3.2.3 使用Requests库发送GET请求
3.2.4 使用Requests库发送POST请求
3.2.5 Requests库的响应对象
3.2.6 HTTP状态码
3.2.7 定制请求头
3.2.8 Requests库发送GET请求的通用代码
3.3 使用urllib库提取网页数据
3.3.1 使用urllib库发送GET请求
3.3.2 使用urllib库发送POST请求
3.3.3 urllib库的用户代理
3.4 案例1 QQ表情包图片爬取
3.4.1 任务描述
3.4.2 任务分析
3.4.3 任务实现
3.5 案例 2手机号码归属地查询
3.5.1 任务描述
3.5.2 任务分析
3.5.3 任务实现
本章小结
本章习题
第4章 网页解析
4.1 使用BeautifulSoup解析网页
4.1.1 BeautifulSoup库的安装
4.1.2 BeautifulSoup解析器
……
第5章 数据存储
第6章 动态网页爬取
第7章 Scrpay框架初探
第8章 Scrpay框架深入
第9章 数据预处理
第10章 招聘网站数据分析
参考文献
猜您喜欢