多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《离线和实时大数据开发实战 》_1
《离线和实时大数据开发实战 》_2
《离线和实时大数据开发实战 》_3
内容简介:
作者简介
Zhu松岭(花名邦中)
_阿.里_巴巴智能服务事业部数据开发专
家。大数据践行者,致力于通过数据和算法
的智能化来赋能商业与社会,拥有十余年大
数据一线实战经验,尤其对于智能化产品的
大数据开发、架构和未来数据产品设计有丰
富经验及深入认识。对 Hadoop离线数据开发
技术、流计算实时开发技术、大数据开发优
化以及大数据建模等有较为深入的研究
仅供非商业用途或交流学习使用
8
技术丛书
离线和实时人数据
开发实战
Zhu松岭◎著
Q想玉业出凰
图书在版编目(CIP)数据
离线和实时大数据开发实战/Zhu松岭著,一北京:机械工业出版社,2018.5
(大数据技术丛书)
Il数据处理I.TP274
中guo版本图书馆CIP数据核字(2018)第067290号
离线和实时大数据开发实战
出版发行:机械工业出版社(北京市西城区百万庄大听22号邮皮编码:10007)
责任编辑:高婧雅
责任校对:殷虹
印刷:北京信伟业印刷有限公司
版次:2018年5月第1版第1次印刷
开本:186mmx240mm1/16
印张:14.75
ISBN978-7-111-59678-3
定价:59.00元
凡购本书,如有缺页、倒页、脱页,由本社发行部调换
客服热线010)8837942688361066
投稿热线
购书热线010)683262948837964968995259读者信箱
版权所有·侵权必究
本书法律顾间:北京大成律师事务所Han光/邹晓东一
前言
为什么要写这本书
念念不忘,终有回响。
撰写一本数据开发相关书的念头始于笔者学习数据知识的早期,当时笔者遍寻市面上
所有的数据书籍,却没有发现一本系统化且从项目实践角度突出重点的数据开发书籍
者非常理解某领域初学者的苦衷,对于他们来说,最重要的不是具体的AP、安装教
程等,而是先找到该领域的知识图谱,有了它,就可按图索骥,有针对性地去学
据的技术可以说是五花八门、琳琅满目,初学者非常容易不知所措,不知从哪下
对于大数据技术来说,上述需求更甚。一方面,由于社区、商业甚至个人原因
方面,从理论上来说,互联网上几乎可以查到所有的大数据技术,比如在百度上搜
问知乎,但这些都是碎片化的知识,不成体系,初学者需要先建立自己的大数据知识架构,
再进一步深
本书正是基于这样的初衷撰写的,旨在帮助和加快初学者建立大数据开发领域知识图
谱的过程,带领初学者更快地了解这片领域,而无须花更长的时间自己去摸索
当然,未来是Dr( Data Technology)时代,随着人工智能、大数据、云计算的崛起
未来数据将起到关键的作用,数据将成为如同水、电、煤一样的基础设施。但是,实际上
目前数据的价值还远远没有得到充分的挖掘,如医疗数据、生物基因数据、交通物流数据
零售数据等。所以笔者非常希望本书能够对各个业务领域的业务分析人员、分析师、算法
工程师等有所帮助,让他们更快地熟悉和掌握数据的加工处理知识与技巧,从而能够更好
更快地分析、挖掘和应用数据,让数据产生更多、更大的价值
通过阅读本书,读者能建立自己的大数据开发知识体系和图谱,掌握数据开发的各种
技术(包括有关概念、原理、架构以及实际的开发和优化技巧等),并能对实际项目中的数
据开发提供指导和参考。
大数据技术ri新月异,由于篇幅和时间限制,书中仅讲述了当前主要和主流的数据相
关技术,如果读者对大数据开发有兴趣,本书将是首选的入门读物
本书特色
本书从实际项目实践出发,专注、完整、系统化地讲述数据开发技术,此处的数据开
发技术包括离线数据处理技术、实时数据处理技术、数据开发优化、大数据建模、数据分
层体系建设等。
我们处于一个信息过度的时代,互联网涵盖了人类有史以来的所有知识,浩如烟海
对大数据开发技术来说,更是如此。那么,大数据相关人员如何吸收、消化、应用和扩展
自己的技术知识?如何把握相关的大数据技术深度和广度?深入到何种程度?涉猎到何种
是很有意思的问题。笔者认为最重要的是找到锚点,而本书的错点就是数据开发技
术。所以本书的另一个特点是以数据开发实战作为锚点,来组织、介绍各种数据开发技术
包括各种数据处理技术的深度和广度把握等。比如在离线数据处理中,目前事实的处理标
准是Hive,实际项目中开发者已经很少自己写 Hadoop MapReduce程序来进行大数据处理
那是不是说 MapReduce和HDFS就不需要掌握了呢?如果不是,又需要掌握到何种程度
呢?笔者的答案是,对于Hive要精深掌握,包括其开发技巧和优化技巧等。 MapReduce要
掌握执行原理和过程,而 MapReduce和HDFS具体的读数据流程、写数据流程、错误处理
度处理、IO操作、各种API、管理运维等,站在数据开发的角度,这些都不是必须掌
握的
本书还有一个特点,就是专门讲述了实时数据处理的流计算SQL。笔者认为,未来的
实时处理技术的事实标准将会是SQL,实际上这也是正在发生的现实
读者对象
本书主要适合于以下读者,包含
口大数据开发工程师
口数据科学家
仅供非商业用
#############################################
|
|