多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《Python数据抓取技术与实战》_1
《Python数据抓取技术与实战》_2
《Python数据抓取技术与实战》_3
内容简介:
数据抓取
技
术与实战
数据抓取,大数据领域研究的第一个环节!
数据就是生产力
★潘庆和赵星驰/编著★
電子工紫出販社
Publishing House of Electronics Industry
北京· BEIJING
内容简介
数据抓取是获取大数据的一种主要手段。本书主要介绍使用 Python语言及其相关工具进行数据抓取的
方法,通过实例演示在数据抓取过程中常见问题的解决方法。通过本书的学习,读者可以根据需求快速地
编写出符合要求的抓取程序
本书技术性强,注重应用和实战,可供从事数据获取的工程技术人员、理工科院校相关专业的本科生
及大数据从业人员使用
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容
版权所有,侵权必究
图书在版编目(c|P)数据
Python数据抓取技术与实战/潘庆和,赵星驰编著,一北京:电子工业出版社,2016.8
ISBN 978
DP…Ⅱ.①潘…②赵…Ⅲ.①软件工具-程序设计Ⅳ.①TP31.561
中guo版本图书馆CP数据核字(2016)第217952号
责任编辑:富军特约编辑iu汉斌
印刷:三河市华成印务有限公司
装订:三河市华成印务有限公司
北京市海淀区万寿路173信箱邮编100036
开本:787×10921/16印张:16字数:410千字
版次:2016年8月第1版
印次:2016年8月第1次印刷
印数:3000册定价:49.00元
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系
联系及邮购电话010)8825488888258888
质量投诉请发邮件至s@phei.com,cn,盗版侵权举报请发邮件至doq@phe
本书咨询联系方式010)88254456
前言
大数据技术是当前工程和科学技术领域研究的热点。数据科学研究通常包括四个主要
环节,即数据获取、数据存储、数据分析及数据可视化。本书主要聚焦数据获取环节。这
〔他环节的基础。及时准确地获得丰富详实的数据,可为后续工作奠定坚实的基础,并
提高分析结论的可信性和可靠性。
互联网的开放性为数据的获取带来了极大的便利。本书基于 Python语言的数据抓取技
术,主要介绍如何快速准确地从网络上获得所需的数据,构建满足要求的数据集或大数据
集。 Python语言是一种通用编程语言,可以应用于各种编程领域,在数据科学领域也是一
种十分热门的语言。本书使用 Python作为数据抓取技术的实现语言,利用 Python丰富的模
块支持和语言特性,解决绝大部分数据抓取中经常会遇到的问题。为了使不了解 Python语
言的读者快速上手,在第1章中介绍了阅读本书所需的 Python语言基础知识。
本书介绍了数据抓取涉及的各类技术问题和解决方法,并按章节进行组织,每章内容
基本独立,可使读者在遇到问题时能够快速地进行问题定位。书中的内容侧重于将已有的
成熟理论原理和流行框架应用于数据抓取实际问题的解决中。在编写过程中,只侧重介绍
应用于数据抓取时的应用方式,并未对某些原理和框架进行详细的描述,感兴趣的读者可
以进一步查找相关文献和资料来加深对概念和理论的理解。阅读时,读者可通过运行书中
的实例代码,看到现象后再回头去分析,可有助于更好地理解相关的概念和原理,为进
步的研究打下基础
本书主要面向初学者,读者可基于书中的运行实例进行改造,设计出符合自己要求的数
据抓取程序。本书可以迅速用于实战,可供相关专业工程技术人员和高校本科生阅读参考
感谢首席策划编辑富军老师的辛勤工作!感谢赵星驰老师在外文技术资料方面提供的
帮助与协作!
如果读者阅读中发现问题,请及时与我们联系,希望大家多多批评指正
编著者
目
录
第1章 Python基础
1.1 Python安装
1.2安装pip
1.3如何查看帮助
1.4第一个实例
1.5文件操作
6循环
1.8元组
1.9列表
1.10_字_典_
00268
1.11集合
1.12随机数
1.13 enumerate的使用
1.14第二个实例
第2章字符串解析
2.1常用函数
2.2正则表达式
2. 3 BeautifulSoup
第3章单机数据抓取
3.1单机顺序抓取
3. 2 requests
3.3并发和并行抓取
第4章分布式数据抓取
4.1.R.P.C.的使用
4.2 Celery系统
第5章全能的 Seleniun
1 Selenium单机抓取
5.2 Selenium分布式抓取
5.3 Linux无图形界面使用 Selenium
第6章神秘的Tor
1抓取时PP被封锁的问题
6.2Tor的安装与使用
6.3Tor的多线程使用
第7章抓取常见问题
7.2桌面程序
7.3U盘
213
7.4二级三级页面
7.5图片的处理
7.6App数据抓取
第8章监控框架
框架说明
8.2监控系统实例
第9章拥抱大数据
9.1 Hadoop生态圈
9.2 Cloudera环境搭建
#############################################
|
|