牵手看日落 发表于 2019-12-14 09:07:36

电子书:《Python 3网络爬虫开发实战》

719
                       



内容简介:

崔庆才
北京航空航天大学硕士,静觅博
客(hts:/ cuiqungcal. com/)博
主,爬虫博文访问量已过百万,喜
欢钻研,热爱生活,乐于分享。欢
迎关注个人微 信公众号“进击的
Coder”,二维码如下

NGT灵原创
thon(3
网络爬虫开发实战
崔庆才著
_代*_明影多
人民邮电出版社
北京

图书在版编目(CIP)数据
Python3网络爬虫开发实战/崔庆才著.一北京
人民邮电出版社,2018.4
(T灵原创)
ISBN978-7-115-48034-7
P…Ⅱ.①崔…Ⅲ.①软件工具一程序设计
ⅣV.①TP311.561
中guo版本图书馆CIP数据核字(2018)第042370号
本书介绍了如何利用 Python3开发网络爬虫。书中首先详细介绍了环境配置过程和爬虫基础知识;然
后讨论了urib、 requests等请求库, Beautiful Soup、 XPath、 query等解析库以及文本和各类数据库的存
储方法;接着通过多个案例介绍了如何进行Aax数据爬取,如何使用 Selenium和 Splash进行动态网站爬取
再后介绍了爬虫的一些技巧,比如使用_代*_爬取和维护动态_代*_池的方法,ADSL拨号_代*_的使用,图形
极验、点触、宫格等各类验证码的_破_解_方法,模拟登.录网站爬取的方法及 Cookies池的维护
此外,本书还结合移动互联网的特点探讨了使用 Charles, mitmdump、 Apium等工具实现Ap爬取
的方法,紧接着介绍了 spider框架和 Scrap框架的使用,以及分布式爬虫的知识,最后介绍了Bloo
Filter效率优化、 Docker和 Scraped爬虫部署、 Grapy爬虫管理等方面的知识
本书适合 Python程序员阅读
◆著
崔庆才
责任编辑王军花
责任印制周昇亮
◆人民邮电出版社出版发行北京市丰台区成寿寺路11号
邮编10064电子邮件3s@ptpress.com.cn
网址htp
p-press.com.cn
D厂聚鑫印刷有限责任公司印刷
开本:800×10001/16
印张:37.75
字数:917千字
印数:1-4000册
2018年4月河北第1次印刷
定价:99.00元
读者服务热线:(01051095186转600印装质量热线:(010)81055316
反盗版热线:(010)81055315
广告经营许可证:京东工商广登字20170147号

序一
人类社会已经进入大数据时代,大数据深刻改变着我们的工作和生活。随着互联网、移动互联网
社交网络等的迅猛发展,各种数量庞大、种类繁多、随时随地产生和更新的大数据,蕴含着前所未有
的社会价值和商业价值。大数据成为21世纪最为重要的经济资源之一。正如MA云所言:未来最大的
能源不是石油而是大数据。对大数据的获取、处理与分析,以及基于大数据的智能应用,已成为提高
未来竞争力的关键要素。
但如何获取这些宝贵数据呢?网络爬虫就是一种高效的信息采集利器,利用它可以快速、准确地
采集我们想要的各种数据资源。因此,可以说,网络爬虫技术几乎已成为大数据时代T从业者的必
修课程。
我们需要采集的数据大多来源于互联网的各个网站。然而,不同的网站结构不一、布局复杂、渲
染方式多样,有的网站还专门采取了一系列“反爬”的防范措施。因此,为准确高效地采集到需要的
数据,我们需要采取具有针对性的反制措施。网络爬虫与反爬措施是矛与盾的关系,网络爬虫技术就
是在这种针锋相对、见招拆招的不断斗争中,逐渐完善和发展起来的。
本书介绍了利用 Python3进行网络爬虫开发的各项技术,从环境配置、理论基础到进阶实战、分
布式大规模采集,详细介绍了网络爬虫开发过程中需要了解的知识点,并通过多个案例介绍了不同场
景下采用不同爬虫技术实现数据爬取的过程
我坚信,每位读者学习和掌握了这些技术之后,成为一个爬虫高手将不再是梦想!
Li舟军,北京航空航天大学教授,博士生导师
7年10月

序二
众所周知,人工智能的这次浪潮和深度学习技术的突破密不可分,却很少有人会谈论另一位幕后
英雄,即数据。如果不是网络上有如此多的图片,Li飞飞教授也无法构建近千万的标注图片集合
geNet,从而成就深度学习技术在图像识别领域的突破。如果不是在网络上有了如此多的聊天数据
小冰也不会学习到人类的情商,在聊天中带给人类惊喜、欢笑和抚慰。人工智能的进步离不开数据和
算法的结合,人类无意间产生的数据却能够让机器学习到超乎想象的“智慧”,反过来服务人类
在互联网时代,强大的爬虫技术造就了很多伟大的搜索引擎公司,让人类的记忆搜索能力得到巨
大的延展。今天在移动互联网时代,爬虫技术仍然是支撑一些信息融合应用(如今ri头条)的关键技
术。但是,今天爬虫技术面临着更大的挑战。与互联网的共享机制不同,很多资源只有在登.录之后才
能访问,还采取了各种反爬虫措施,这就让爬虫不那么容易访问这些资源。无论是产品还是研究,都
需要大量的优质数据来让机器更加智能。因此,在这个时代,大量的从业者急需一本全面介绍爬虫技
术的书。如果你需要了解全面和前沿的爬虫技术,而且想迅速地上手实战,这本书就是首选。
我很荣幸认识崔庆才先生,他目前还是一名北京航空航天大学在读研究生,正处在一个对技术狂
热追求的年纪。我听他讲了一些修炼爬虫技术的故事,很有意思。他在本科的时候因为一个项目开始
接触爬虫,之后他用爬虫竟然得到了所在学校同学的照片,还帮助他的哥们儿追其他系的女孩。我问
他是否也是用这些信息找到了女友,他甩了下头发,酷酷地说:“需要吗?”
崔庆才是个非常擅长学习的人,他玩什么都能玩到精通。他有一个很好的习惯,就是边学边写,
他早期学习爬虫技术的时候,就开了博客,边学边分享他学到并实际操作过的经验,圈粉无数。我很
受启发,这样的学习模式很高效,要教给别人之前自己必须弄得特别清楚。另一方面,互联网上的互
动也给了他继续学习和精益求精的动力
除了网络,图书是最成体系的经验分享。本书记录了崔庆才先生对爬虫实战技术最精华的部分。
我已经迫不及待地想买一本,也一定会把它推荐给更多的朋友
宋睿华,微软小冰首席科学家
2017年10月


#############################################


阳光依旧温暖 发表于 2019-12-21 19:54:04



免费下载地址:

http://pan.qqq0.com/file/488067-425771691

页: [1]
查看完整版本: 电子书:《Python 3网络爬虫开发实战》