多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《网络爬虫全解析――技术_原理与实践-java版》_1
《网络爬虫全解析――技术_原理与实践-java版》_2
《网络爬虫全解析――技术_原理与实践-java版》_3
内容简介:
作者简介
猎兔搜索创始人,带领猎兔搜索技术开发团
队先后开发出猎兔中文分词系统、猎兔问答
系统、猎兔信息提取系统、猎兔智能垂直搜
索系统以及网络信息监测系统等,实现互联
网信息的采集、过滤、搜素和实时监测。曾
编写出版《自己动手写搜索引擎》、《自己
动手写网络爬虫》、《使用C#开发搜索引
擎》,获得广泛好评。在北京和上海等地均
有猎兔培训的学员
网络爬虫全解析
技术、原理与实践
罗刚◎著
電子工業出版社
Publishing House of Electronics Industry
北京 BELJING
内容简介
本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工
作原理,如何使用开源组件 Httpclient和爬虫框架 Crawler4抓取网 页信息,以及针对抓取到的文本进行
有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术
另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓
取到的信息。最后,以实战为例,介绍了如何抓取微 信和微博,以及在电商、医药、金融等领域的案例应
用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案
例介绍了抓取 PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取
表格等
本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。
版权所有,侵权必究
图书在版编目(C|P)数据
网络爬虫全解析:技术、原理与实践/罗刚著.一北京:电子工业出版社,20173
lSBN978-7-121-31071
1.①网…Ⅱ.①罗…Ⅲ.①软件工具一程序设计Ⅳ.①TP311.561
中guo版本图书馆CIP数据核字(2017)第047570号
策划编辑:董英
责任编辑:徐津平
印刷:北京京师印务有限公司
出版发行:电子工业出版社
比京市海淀区万寿路173信箱邮编:100036
开本:787×9801/16印张:2775字数:585千字
版次:2017年3月第1版
印次:2017年3月第1次印刷
印数:3000册定价:79.00元
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系
联系及邮购电话010)882548888825888
质量投诉请发邮件至zs@phei.com.cn,盗版侵权举报请发邮件至dbqqaphei.com.cn
本书咨询联系方式010)51260888819,faq@phei.com
前言
现代社会,有效信息对人来说就像氧气一样不可或缺。互联网让有效信息的收集工作变得
更容易。当你在网上冲浪时,网络爬虫也在网络中穿梭,自动收集互联网上有用的信息
自动收集和筛选信息的网络爬虫让有效信息的流动性增强,让我们更加高效地获取信息
随着越来越多的信息显现于网络,网络爬虫也越来越有用
各行业都离不开对信息的采集和加工处理。例如,农业需要抓取气象数据、农产品行情数
据等实现精准农业。机械行业需要抓取零件、图纸信息作为设计参考。医药行业需要抓取一些
疾病的治疗方法信息。金融行业需要抓取上市公司基本面和技术面等相关信息作为股市涨跌的
参考,例如,太钢生产出圆珠笔头,导致它的股票“太钢不锈”上涨。此外,金融行业也需要
抓取股民对市场的参与度,作为市场大势判断的依据
每个人都可以用网络爬虫技术获得更好的生存策略,避免一些糟糕的情况出现,让自己生
活得更加幸福和快乐。例如,网络爬虫可以收集到二甲双胍等可能抗衰老的药物,从而让人生
活得更加健康
本书的很多内容来源于搜索引擎、自然语言处理、金融等领域的项目开发和教学实践。感
谢开源软件的开发者们,他们无私的工作丰富了本书的内容
本书从开发网络爬虫所需要的Java语法开始讲解,然后介绍基本的爬虫原理。通过介绍优
先级队列、宽度优先搜索等内容,引领读者入门,之后根据当前风起云涌的云计算热潮,重点
讲述了云计算的相关内容及其在爬虫中的应用,以及信息抽取、链接分析等内容。接下来介绍
了有关爬虫的web数据挖掘等内容。为了让读者更深入地了解爬虫的实际应用,最后一章是案
网络爬虫全解析—技术、原理与实践
例分析。本书相关的代码在读者.Q.Q.群.(294737705)的共享文件中可以找到
本书适合需要具体实现网络爬虫的程序员使用,对于信息检索等相关领域的研究人员也有
定的参考价值,同时猎兔搜索技术团队已经开发出以本书为基础的专门培训课程和商业软件
目前的一些网络爬虫软件仍有很多功能有待完善,作者真诚地希望通过本书把读者带入网络爬
虫开发的大门并认识更多的朋友
感谢早期合著者、合作伙伴、员工、学员、家人的支持,他们给我们提供了良好的工作基
础,这是一个持久可用的工作基础。在将来,希望我们的网络爬虫代码和技术能够像植物一样
快速生长
参与本书编写的还有崔智杰、石天盈、张继红、张进威、Liu宇、何淑琴、任通通、高丹丹
徐友峰、孙宽,在此一并表示感谢
2017年2月
轻松注册成为博文视点社区用户(www.broadview.com.cn),您即可享受以下服务
下载资源:本书所提供的示例代码及资源文件均可在【下载资源】处下载
提交勘误:您对书中内容的修改意见可在【提交勘误】处提交,若被采纳,将获赠博文
视点社区积分(在您购买电子书时,积分可用来
与作者交流:在页面下方【读者评论】处留下您的疑问或观点,与作者和其他读者一同
学习交流
页面入口:htp:/www.broadview.com.cn3107
|
|