多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《HADOOP权威指南大数据的存储与分析(第4版)》_1
《HADOOP权威指南大数据的存储与分析(第4版)》_2
《HADOOP权威指南大数据的存储与分析(第4版)》_3
内容简介:
内容简介
本书结合理论和实践,由浅入深,全方位介绍了 Hadoop这一高性能的海量数据处理和分析平
台,全书5部分24章,第1部分介绍 Hadoop基础知识,主涉及 Hadoop、 Mapreduce, Hadoop
分布式文件系统、YARN、 Hadoop的IO操作。第1部分介绍 Mapreduce主题包括 Mapreduce应
用开发: Mapreduce的工作机制、 Mapreduce的类型与格式、 Mapreduce的特性。第Ⅲ部分介绍
Hadoop的运维,主题涉及构建 Hadoop集群、管理 Hadoop。第Ⅳ部分介绍 Hadoop相关开源项目
主题涉及Avro、 Parquet、 Flume、Sqop、PFig、Hive、 Crunch、 Spark、 Hbase、2Zo0 Keeper.第V
部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳( Cemer)、微软的人工智能项目
ADAM(一种大规模分布式深度学习框架)和开源项目 Cascading(一个新的针对 Mapreduce的数据
本书一本权威、全面的Hdoo参考与工具书,阐述了 Hadoop生态圈的最新发展和应用,程
序员可以从中探索海量数据集的存储和分析,管理员可以从中了解 Hadoop集群的安装和运维
0 2016 Tom White. All rights reserved.
including the rights of reproduction in whole or in part in any form.
O Reilly Media,nc.于2016年出版
Oreilly Media.nc.授权清华大学出版社2017年出版。此译版的出版和销售
权的所有者 Oreilly Media,nc.的许可
未经书面许可,本书的任何部分和全部不得以任何形式复制
权局著作权合同登记号图
2015-2862
贴有清华大学出版社防伪标
签者不得销售
侵权必究。侵权举报电话
图书在版编目(CIP)数据
o0权威指南美)汤姆?怀特( Tom White)著:王海,华东,Liu喻,吕海译一4版.一北京
书名原文: Hadoop: The Definitive Guide
ISBN978-7-302-46513
.①H.①汤…②王…③华…④Liu…⑤昌….①数据处理软件一指南
N.①TP274-62
中guo版本图书馆CIP数据核字(2017)第025689号
贵任编辑:文开琪
封面设计: Karen Montgor
贵任校对:同剑云
责任印制:Liu海龙
出版发行:清华大学出版社
tup.comcn,http://www.wa.H.O.O.K..com
地址;北京清华大学学研大厦A座
郎编:100084
杜总机:010-62770175
郎购:010-62786
投稿与读者服务:010-62776969,e-service(@tup.tsinghua.edu.cn
质量反馈:010-62772015, zhiliang(a tup, tsinghua,edu,
印装者:三河市铭被印务有限公司
经销:全guo新华书店
开本:178mmX23
46插页
1数
594千字
版次:2017年7月第4版
印次:2017年10月第3次印
定价:148.00元
产品编号:06343-01
O' Reilly Media,Inc.介绍
O' Reilly Media通过图书、杂志、在线服务、调查研究和会议等方式传播创
新知识。自1978年开始,O' Reilly一直都是前沿发展的见证者和推动者
超级JiKe们正在开创着未来,而我们关注真正重要的技术趋势一一通过放大
那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的
参与者, O'reilly f的发展充满了对创新的倡导、创造和发扬光大
O' Reilly为软件开发人员带来ge命性的“动物书”:创建第一个商业网站
(GNN);组织了影响深远的开放源代码峰会,以至干开源软件运动以此命
名创立了Make杂志,从而成为DIYge命的主要先锋;公司一如既往地
通过多种形式缔结信息与人的组带。 O'reilly的会议和峰会集聚了众多超级
JiKe和高瞻远的商业领袖,共同描绘出开创新产业的ge命性思想。作为
技术人士获取信息的选择,O'Reil现在还将先锋专家的知识传递给普通的
计算机用户。无论是通过书籍出版,还是在线服务或者面授课程,毎一项
O' Reilly I的产品都反映了公司不可动摇的理念一一信息是激发创新的力量
业界评论
O'reilly Radar博客有口皆碑
Wired
O' Reilly凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元
的业务。”
“ O Reilly Conference是聚集关餽思想领袖的绝对典范
本O' Reilly的书就代表一个有用、有前途、需要学习的主题
Irish Times
Tim是一位特立独行的人,他不光放眼于最长远、最广的视野并且切
实地按照尤吉?贝拉的建议去做了:如果你在路上遇到岔路口,就选择
走小路。?回顾过去Tim似乎每一次都选择了小路,而且有几次都是一闪
即逝的机会,尽管大路也不错
推荐序
Doug Cutting@加州院内小屋
Hadoop起源于 Nutch项目。我们几个人有一段时间一直在尝试构建一个开
源的Wweb搜索引,但始终无法有效地将计算任务分配到多台计算机上
即使就只是屈指可数的几台。直到谷发表GFS和 Mapreduce的相关论文
之后,我们的思路才清晰起来。他们设计的系统已经可以精准地解决我们
在 Nutch项目中面临的困境
我们(两个半天工作制的人)开始尝试重
建这些系统,并将其作为 Nutch的一部分。
我们终于让 Nutch可以在20台机器上平稳运行,但很快又意识一点:要想
应对大规模的Web数据计算,还必须得让 Nutch能在几千台机器上运行
不过这个工作远远不是两个半天工作制的开发人员能够搞定的
差不多就在那个时候,雅虎也对这项技术产生了浓厚的兴趣并迅速组建了
个开发团队。我有幸成为其中一员。我们剥离出 Nutch的分布式计算模
块,将其称为“ Hadoop”。在雅虎的帮助下, Hadoop很快就能够真正处理
海量的Web数据了
从2006年起, Tom White就开始为 Hadoop做贡献。很早以前,我便通过他
的一篇非常优秀的 Nutch论文认识了他。在这篇论文中,他以一种优美的
文风清晰地阐述复杂的思路。很快,我还得知他开发的软件一如他的文
笔,优美易懂。
从一开始,Tom对 Hadoop所做的贡献就体现出他对用户和项目的关注。与
大多数开源贡献者不同,Tom并没有兴致勃勃地调整系统使其更符合自己
个人的需要,而是尽可能地使其方便所有人使用。
最开始,Tom专攻如何使 Hadoop在亚MA逊的EC2和S3服务上高效运行
随后,他转向解决更广泛的各种各样的难题,包括如何改进 Mapreduce
API,如何增强网站持色,如何精心构思对象序列化框架,如此等等,不
而举。在所有这些工作中,Tom都非常清晰、准确地阐明了自己的想法。
在很短的时间里,Tom就赢得大家的认可,拥有 Hadoop提交者( committer)
的权限并很快顺理成章地成为 Hadoop项目管理委员会的成员
现在的Tom,是 Hadoop开发社区中受人尊敏的资深成员。他精通 Hadoop
目的若干个技术领域,但他更擅长于. Hadoop的普及,使其更容易理解和
基于我对Tom的这些了解,所以当我得知Tom打算写一本 Hadoop的书之
时,别提有多高兴了。是的,谁比他更有资格呢?!现在,你们有机会向
这位年青的大师学习 Hadoop,不单单是技术,还有一些必知必会的常识
以及他化繁为简、通俗易懂的写作风格
推荐序二
周立柱@清华园
在这本《 Hadoop权威指南(第4版)》即将出版之际,我十分高兴地再次向
广大读者推荐这本书,并期待着它成为我guo从事大数据系统研究与开发的
科研人员、工程师的一本有价值的参考书。
迄今为止, Hadoop的发展已经经历了两代,分别为 Hadoop1.0和 Hadoop
2.0。与《 Hadoop权威指南(第3版)》相比,第4版在重点介绍 Hadoop2.0
的基础上,新增了对当前热门的 Hadoop技术(如YARN、 Parquet、 Flume
Crunch和 Spark)的专门讲解,有助于 Hadoop开发者更好地理解相关技术的
背景、原理及使用。此外,第4版还引入了 Hadoop在医疗健康领域和分子
生物学领域的最新应用成果,并为此新增了相关的实例学习,这对广大
Hadoop用户而言,具有更好的实践指导意义
今天, Hadoop开源项目已经成为研究大数据、开发大数据应用的重要平
台,在我guo已经形成一个庞大的 Hadoop用户社群,他们对学习、掌握和提
高 Hadoop提出了很高的需求,《 Hadoop权威指南》系列版本的推出恰好
可以满足这样的需要。该书从第1版发行以来,历次再版后的畅销也证明
了它的用途和价值。
原著的内容组织得当,思路清晰,从原著第4版的大幅更新可以看出作者
Tom White认真、严谨的态度以及对技术的尊重。几位译者在本书翻译过程
中,也力求做到清晰、准确和忠实于原著,并为此付出了宝贵的时间和艰
辛的劳动
#############################################
|
|