Python网络数据采集

Python网络数据采集 米切尔著

Python 网络数据采集
浏览人数:254
在读人数:3
读者:
  本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。
译者序 ix   
前言 xi   
第一部分 创建爬虫   
第1章 初见网络爬虫   
1.1 网络连接   
1.2 BeautifulSoup简介   
第2章 复杂HTML解析   
2.1 不是一直都要用锤子   
2.2 再端一碗BeautifulSoup   
2.3 正则表达式   
2.4 正则表达式和BeautifulSoup   
2.5 获取属性   
2.6 Lambda表达式   
2.7 超越BeautifulSoup   
第3 章 开始采集   
3.1 遍历单个域名   
3.2 采集整个网站   
3.3 通过互联网采集   
3.4 用Scrapy 采集   
第4 章 使用API   
4.1 API 概述   
4.2 API 通用规则   
4.3 服务器响应   
4.4 Echo Nest   
4.5 Twitter API   
4.6 Google API   
4.7 解析JSON 数据   
4.8 回到主题   
4.9 再说一点API   
第5 章 存储数据   
5.1 媒体文件   
5.2 把数据存储到CSV   
5.3 MySQL   
5.4 Email   
第6 章 读取文档   
6.1 文档编码   
6.2 纯文本   
6.3 CSV   
6.4 PDF   
6.5 微软Word 和.docx   
第二部分 高级数据采集   
第7 章 数据清洗   
7.1 编写代码清洗数据   
7.2 数据存储后再清洗   
第8 章 自然语言处理   
8.1 概括数据   
8.2 马尔可夫模型   
8.3 自然语言工具包   
8.4 其他资源   
第9 章 穿越网页表单与登录窗口进行采集   
9.1 Python Requests 库   
9.2 提交一个基本表单   
9.3 单选按钮、复选框和其他输入   
9.4 提交文件和图像   
9.5 处理登录和cookie   
9.6 其他表单问题   
第10 章 采集JavaScript   
10.1 JavaScript 简介   
10.2 Ajax 和动态HTML   
10.3 处理重定向   
第11 章 图像识别与文字处理   
11.1 OCR 库概述   
11.2 处理格式规范的文字   
11.3 读取验证码与训练Tesseract   
11.4 获取验证码提交答案   
第12 章 避开采集陷阱   
12.1 道德规范   
12.2 让网络机器人看起来像人类用户   
12.3 常见表单安全措施   
12.4 问题检查表   
第13 章 用爬虫测试网站   
13.1 测试简介   
13.2 Python 单元测试   
13.3 Selenium 单元测试   
13.4 Python 单元测试与Selenium 单元测试的选择   
第14 章 远程采集   
14.1 为什么要用远程服务器   
14.2 Tor 代理服务器   
14.3 远程主机   
14.4 其他资源   
14.5 勇往直前   
附录A Python 简介   
附录B 互联网简介   
附录C 网络数据采集的法律与道德约束   
作者简介   
封面介绍   
优质好资源
PDF

Python网络数据采集.pdf

2018-09-19上传 下载:30 文字版 带目录
已下载
注:所有资源均由网友分享,经由管理员审核,保证完整性、清晰度,请放心使用!
作者简介
评论