黒涩兲箜 发表于 2019-11-30 10:38:35

电子书 《BigData大数据系统构建》

383
                       



内容简介:

y
技术丛书
Big Data
Scos'ples and Best Practices of
alable Realtime Data Systems
大数据系统构建
可扩展实时数据系统构建
原理与最佳实践
南森?MA茨( Nathan Marz)
斯,论( James W)
想甚
图书在版编目(CIP)数据
大数据系统构建:可扩展实时数据系统构建原理与最佳实践/(美)南森?MA茨( Nathan
)磨姆斯?沃伦( James Warren)著;MA延辉,向辐,魏东琦译.一北京:机
书名原文: Big Data: Principles and Best Practices of Scalable Realtime Data System
ISBN978-7-111-55294-9
1.大….①南…②…③MA…④向…⑤魏…I.数把处理IV.TP274
中guo版本图书馆CIP数据核字(2016)第262539号
本书版权登记号:图字:01-2015-7585
Nathan Marz, James Wr
Big Data: Principles and Best Practices of Scalable Realtime Data Systems
ISBN978-1617290343
Original English language edition published by Manning Publications Co., 209 Bruce Park Aven
Greenwich. Connecticut 06830.
Copyright 0 2015 by Manning Publications Co.
Simplified Chinese-language edition copyright 2017 by China Machine Press.
rights arranged with Manning Publications Co, through Waterside
Productions Inc
transmitted in any form or by any
mechanical, including photocopying. recording or any information storage and retrieval sy
permission, in writing. from the publisher.
All rights reserved
本书中文简体字版由 Manning Publications Co.通过 Waterside Productions,lnc.授权机械工业出版社在全球独
家出版发行。未经出版者书面许可,不得以任间方式抄、复制节录本书中的任何郎分。
大数据系统构建
扩展实时数据系统构建原理与最佳实践
出版发行:机械工业出版社(北京市西区百万庄大哲22号邮政码:
责任编:
责任校对:股虹
ri刷:北京信伟业ri印刷有限公司
版次:2017年1月第1版第1次印
开本:186mmx240mm1/16
ri]张:18.75
定价:79.00元
凡购本书,如有缺页、倒页、税页,由本社发行部读换
投线:(010)88379604
010)683262948837964968995259读者信箱: hzit(a haboob,com
北真大成律事务所光/等邻晓东
ionr!を译者序
首先,请允许我们对 Nathan Marz致以崇高的敬意
Nathan Marz是分布式实时计算系统 Storm的创始人,在 Itwitter收购社交媒体数据分
析公司 Backtype前担任 Back Type的首席工程师,之后选择离开 Twitter,创立自己的公
司。在实时大数据处理系统中, Storm作为 Apache顶级开源项目已经成为大数据界不可或
缺的一部分。因此,对于能够翻译 Nathan Marz的书籍,我们深感荣幸
与大多数程序员一样, Nathan Marz也是通过游戏进入开发者的世界的,在这一点上
似乎我们大多数人与 Nathan Marz相差无几。但不同的是, Nathan Marz开创性地设计并使
用 Clojure语言编写了 Storm,为我们揭开了大数据处理的新篇章,而我们未曾想过海量数
据是可以实时分析并处理的,这也正是他与众不同的地方。 Nathan Marz对大数据概念的
理解非常深刻,在编程技术上基础扎实,如同 Dean Jeffrey和 Doug Cutting那样,他用自己
超凡的智慧,带领我们步入了一个全新的数据时代
本书借一些虚构的社交媒体示例,来让读者深入理解以下几件事情
1)什么是大数据、它们从哪里来
2)社交媒体有哪些数据是有价值且需要我们去分析的
3)在使用数据的过程中,我们需要用哪些思路、架构、工具来实现自己的目的
4)对于不同的数据类型,我们如何选择正确的架构和模型去进行分析和挖据
在翻译的过程中,我们也了解到, Nathan Marz不仅在数学与编程方面才华横溢,对各
种开发工具与架构也是信手拈来,而且他所写的书籍也是字字珠现,文不加点。他所写的
内容深邃却并不晦濯,溲显易懂,贴近实战,原作行文流畅,文采炳焕。本书将大数据方
方面面的工具以实例的形式引入内容中,令人读后有一种甜畅淋漓、耳目一新的感觉,在
内容方面,从 Apache Thrift的讲解到 Lambda架构的实例、从HDFS和 Mapreduce I的示范
到架构和算法的实现以及针对不同类型数据模型的创建,一一涌盖其中。可以说,本书是
大数据技术的集大成者,是诸多大数据书籍中难得一见的实战参考书
对于我们译者来说,之所以翻译本书,既是希望将guo外实践大数据技术的重要经验引
入guo内,让guo内的读者能够从中一窥究竟,同时也希望自己在翻译的过程中有所受益。站
在巨人的肩膀上,才能让我们能够看得更远
在本书的翻译过程中,我们得到了诸多朋友和家人的帮助、理解以及支持,在此对他
们表示衷心的感谢。同时也对促成本书出版的机械工业出版社的王春华、杨福川编辑表
诚挚的谢意
本书内容丰富,涵盖了大数据的诸多方面,如 Thrift、数据建模、HDFS、 Mapreduce
Hbase、 Lambda等,这为本书的翻译增加了不少难度。尽管我们进行了多次校对和修改
甚至几位译者就某些专业词汇如何准确翻译进行了多次字料句酌的讨论,但由于水平所限
恐难以将原作的内容全面还原,因此也难免出现纰漏和不足。在此,也恳请广大读者在阅
读之余不吝赐教,给予批评指正。
2016年10月于北京
er前言
次进入大数据的世界
佛置身于软件开发的美guo西部荒原。许多人放弃
了关系型数据库,转而选择带有高度受限模型的 NOSQL数据库,主要是因为其使用体验良
好、熟悉度较高且这种数据库可以扩展到成千上万台机器上。 NOSQL数据库的数量巨大
堪称铺天盖地,这些数据库中很多都只有细微的差别。一个名为" Hadoop”的新项目开始
崭露头角,它宣称具备基于海量数据进行数据深度分析的能力。但弄清楚如何使用这些新工
具很令人困惑。
当时,我正试图处理所在公司面临的扩展性问题。系统架构非常复杂一一该Web系统
包含共享关系型数据库、队列、工作节点、主节点和从节点。数据损坏_渗.透_至数据库,为
处理这些损坏,我们使用了应用程序中的特殊代码,但从节点的操作总是落后于其他节
点。我决定探索其他大数据技术,看看是否有比我们的数据架构更好的设计
早期的软件工程职业生涯的经历,深刻影响了我对“系统该如何架构”的观点。我的
位同事花了几个星期将来自互联网的数据收集到一个共享文件系统。他在等待收集足够
的数据,以便能在其上进行数据分析。有一天,在做一些ri常维护时,我不小心删除了他
的所有数据,导致他的项目延期了好几周
我知道自已犯了一个大错,但作为一个软件工程师新手,我并不知道这会导致什么样
后果。我会不会因为粗心被解雇呢?我发了一封电子邮件向团队诚撃地道款一一让我惊
喜的是,大家对此都表示非常同情。我水远不会忘记那个时刻
个同事来到我的办公
桌旁,拍着我的背说:“恭喜你!你现在是一个专业的软件工程师了!”
他玩笑式的表述道出了软件开发中不言而喻的“真理”一一我们不知道如何创造完美
的软件。软件可能有bug而且会被部署到生产中。如果应用程序可以写人数据库中,那么
bug也可能写人数据库中。当着手重新设计我们的数据架构时,这样的经历深深地影响了
我。我知道,新架构不但必须是可扩展的、对机器故障是可容错的,并且要易于推断故障

#############################################


wutiwl 发表于 2020-1-30 00:32:32



免费下载地址:

http://pan.qqq0.com/file/488067-425692087

页: [1]
查看完整版本: 电子书 《BigData大数据系统构建》