网络数据爬取与分析实务
作者:李周平
出版社:上海交通大学出版社
出版时间:2018-09-01
ISBN:9787313200327
定价:¥68.00
第1章 数据科学概述
1.1什么是数据科学
1.2数据分析师、数据工程师与数据科学家
第2章Python语法基础
2.1 Python的程序结构
2.2 Python编码规范
2.3 Python编程环境的搭建
2.4 Python的数据结构
2.5 Python控制语句
习题
第3章 使用Urllib库编写爬虫
3.1 网络爬虫概述
3.2 使用Urllib.request模块编写爬虫
3.3 修改User-Agent属性模拟浏览器访问
3.4 HTTP协议详解
3.5 模拟HTTP-GET方法的爬虫
3.6 模拟HTTP-POST方法的爬虫
习题
第4章 使用正则表达式提取数据
4.1 正则表达式原理
4.2 正则表达式语法
4.3 re模块常用的函数
4.4 正则表达式应用实例
习题
第5章 使用BeautifulSoup库提取数据
5.1 BeautifulSoup包简介
5.2 BeautifulSoup的信息提取
5.3 BeautifulSoup的遍历
习题
第6章 爬虫项目实战
6.1网易新闻中心爬虫
6.2 通过Session模拟登录豆瓣
6.3 链家二手房信息爬虫
6.4爬取拉勾网JSON格式数据
习题
第7章 Pandas数据处理基础
7.1数据处理概述
7.2 Pandas数据结构
7.3 DataFrame的基本操作
7.4 DataFrame数据的连接
7.4 Pandas数据输入输出
习题
第8章 Pandas数据处理常用方法
8.1 分组统计与转换
8.2 缺失值处理
8.3 时间序列数据处理
8.4 向量转换
习题
第9章 数据处理实战
9.1二手房数据处理
9.2 职位数据处理
9.3 职位描述的文本信息处理
习题
第10章 SQLite数据库操作
10.1 SQLite数据库简介
10.2 Python读写SQLite
10.3 Pandas读写SQLite
习题
第11章 机器学习概述
11.1 认识机器学习
11.2 机器学习的应用范围
11.3 机器学习的算法
11.4 Scikit-learn机器学xibao
习题
第12章 从线性回归到分类
12.1线性回归算法
12.2 逻辑回归分类算法
习题
第13章 分类模型及应用
13.1 K近邻分类算法
13.2 决策树分类算法
13.3 随机森林分类算法
习题
第14章 分类模型的评估
14.1训练与测试样本
14.2 性能评价指标
14.3分类阈值的调整
习题
参考文献