红颜纷扰红尘 发表于 2019-12-20 10:20:02

电子书:《NoSQLHadoop组件及大数据实施大数据开发者权威教程》_Wrox_2018-12-01

887
                       



内容简介:

欢迎阅读“大数据分析师权威教程”系列图书和“大数据开发者权威教程”系列
信息技术蓬勃发展,每天都有新产品问世,同时不断地形成新的趋势。这种不断的变化使得
信息技术和软件专业人员、开发人员、科学家以及投资者都不敢怠慢,并引发了新的职业机会和
有意义的工作。然而,竞争是激烈的,与最新的技术和趋势保持同步是永恒的要求。对于专业人
士来说,在全球T行业中,入行、生存和成长都变得ri益复杂
想在IT这样一个充满活力的行业中高效地学习,就必须做到
O对核心技术概念和设计通则有很好的理解
O具备适应各种平台和应用的敏捷性
O对当前和即将到来的行业趋势和标准有充分的认
鉴于以上几点,我们很高兴地为大家介绍“大数据分析师权威教程”系列图书(两卷)和
大数据开发者权威教程”系列图书(两卷
这两个系列共4本书,旨在培育新一代年轻IT专业人士,使他们能够灵活地在多个平台之
间切换,并能胜任核心职位。这两个系列是在对技术、IT市场需求以及当今就业培训方面的全
球行业标准进行了广泛并严格的调研之后才开发出来的。这些计划的构思目标是成为理想的就业
能力培训项目,为那些有志于在guo际IT行业取得事业成功的人提供服务。这一系列目前已经包
含了一些热门的IT领域中的认证项目,如大数据、云、移动和网络应用程序、网络.安.全.、数据
库和网络、计算机操作、软件測试等。根据我们的全球质量标准加以调整之后,这些项目还能帮
助你识别和评估职业机会,并为符合全球著名企业的招聘流程做好准备
这两个系列是学习和培训资源的知识库,为在重要领域和信息技术行业中培养厂商中立和平
台独立的专业能力而设立。这些资源有效地利用了创新的学习手段和以成果为导向的学习工具
培养富有抱负的IT专业人士。同时也为开设大数据分析师和大数据开发者相关培训课程的讲师
提供了全面综合的教学和指导方案
大数据开发者权威教程”系列图书概览
大数据可能是今天的科技行业中最受欢迎的流行语之一。全世界的企业都已经意识到了可用
的大量数据的价值,并尽最大努力来管理和分析数据、发挥其作用,以建立战略和发展竞争优势
与此同时,这项技术的出现,导致了各种新的和增强的工作角色的演变
“大数据开发者权威教程”系列图书的目标是培养新一代的guo际化全能大数据程序员、开
发者和技术专家,熟悉大数据的相关工具、平台和架构,帮助企业有效地存储、管理和处理海

前言
量和多样的数据。同时,该教程有助于读者了解如何有效地整合、实现、定制和管理大数据基
础架构
本系列图书旨在
O为参与者提供处理大数据的技术、存储、处理、管理和.安.全.基础架构方面的技能
O为参与者提供与 Hadoop及其组件工具协同工作的经验
O使参与者可以开发 MapReduce和pg程序,操纵分布式文件,以及了解支持 MapReduce
O参与者可以熟悉一些流行的 Hadoop商业发行版系统,如 Cloudera、 Hortonworks和
参与者的必备条件
要阅读这个系列图书,读者必须具备以下基础知识
○编程基础(含面向对象编程的基础
O脚本语言的基础(如Per或Ruby
○操作 Linux/ Unix操作系统的基础
○对Java編程语言有很好的理解
●Java核心技术
了解SQL语句
建议的学习时间
大数据开发者权威教程”系列图书由7个学习模块(第1卷包括4个模块,第2卷包括3
个模块)组成
根据参与者的技能水平,可以选择任何数量的模块以积累特定领域的技能,每个模块的学习
目标会在后面列出
付于入门级的参与者,建议学习7个模块,为成为合格的大数据开发者做好充足的就业准
备。专业人士或者已经拥有某些必备技能的参与者则可以选择能够帮助自己强化特定领域技能
的模块
每个模块占用大约10小时的学习时间,因此完整的学习时间大约是70小时
模块清单
第1卷《大数据开发者权威教程:大数据技术与编程基础》的4个模块的具体名称和学习目
标如表1所示

表1
模块编号模块名称
模块目标
大数据入门
了解大数据的角色和重受性
讨论大数据在各行各业中的使用和应用
讨论大数据相关的主要技术
解释 Hadoop生态系统中各种组件的角色
解释 MapReduce l的基础概念和它在 Hadoop生态系统中的作
管理大数据生态系统
·把传统数据管理系统与大数据管理系统进行对比
评估大数据分析的关键需求
讨论整合数据的流程
解释实时数据的相关性
在企业中评估实施大数据的需求
解释如何使用大数据和实时数据作为业务规划工具
存储和处理数据
分析 Hadoop的大数据的HDFS和 HBasc存储模型
HDFS和 MapReduce
开发基本的 MapReduce程序
利用 Map Reduce的可扩展性,进行定制执行
在设计时进行 Map Reduce程序的测试和调试
在给定的场景下实现 MapReduce程序
模块4
利用 Hadoop工具Hi
的数据存储原理
在Hve中执行数据操作
实现Hive的提前查询特性
解释Hive环境支持的文件格式和记录格式
利用Pg使 MapReduce的设计和实现自动化
使用 Oozie分析工作流的设计和管理
绕2卷(大数据开发者权威教程: NoSQL, Hadoop f组件及大数据实施》的3个模块的具体
表2

模莫块编号
模块名称
模块目标
额外的 Hadoop工具
利用 Apache Zookeeper实现分布式协同服务
ZooKeeper、sqop
将数据从非 Hadoop的存儲系统加载到Hive和 HBase中
Fume、YARN和Ston
描述Fume的角色
使用 Flume进行数据汇总
解释YARN的角色,并将它与 Hadoop1.0中的 MapReduce进行对比
解释如何利用运行在YARN上的Stom管理Hadp上的实时数据
模块2
利用N0SOL和Hado:·与 NoSQL的界面和交互
实时、.安.全.和云
执行CRUD操作和各种 NoSQL数据库查询
分析在 Hadoop中.安.全.是如何实现的
配置运行在 Amazon Web
AWS)中的 Hadoop应用
设计 Hadoop实时应用

模块编号
模块名称
块目标
Hadoop商业发行版和管
探讨 Cloudera管理器平台
理工具
利用 Cloudera管理器进行服务的添加和管理
为各种平台配置Hive的元数据
·为Hive安装 Cloudera管理器4.5版
为大数据分析部署 Hortonworks数据平台(HDP)集群
使用 Talend Open Studio进行数据分析
解释 Greenplum Pivotal HD架构
讨论井安装 Info Sphere Biglnsights
讨论并安装MapR和MapR沙盒
为求职面试做有效的准备
学习方法和特色
本书开发了一套独特的学习方法,这种专门设计的方法不仅以最大限度地学习大数据概念为
目标,还注重对真实专业环境下应用这些概念的全面理解。
本书的独特方法和丰富特性简单介绍如下
O涵盖了大数据开发者必备的所有大数据和 Hadoop基础组件及相关组件的基本知识
参与者有可能在一个系列书中获得对所有相关知识、新兴技术和平台的了解
O在与大数据架构、大数据应用程序开发以及与大数据实施相关的产业相关技术,有着最
密切关联的编程和技术领域中,锻炼自己全面的和结构化的本领
O基于场景的学习方法,通过多种有代表性的现实场景的使用和案例研究,将IT基础知
只融入现实环境,鼓励参与者积极、全面地学习和研究,实现体验式教学
○强调目标明确、基于成果的学习。每一讲都以“本讲目标”开始,该目标会进一步关联
整个教程的更广泛的目标
○简明、循序渐进的编程和编码指导,清晰地解释每行代码的基本原理
强调高效、实用的过程和技术,帮助参与者深入理解巧妙且符合道德伦理的专业实践及
其对业务的影响
学习工具
下列学习工具将确保参与者高效地使用本教程
○模块目标:列出某一讲所属模块的目标
O本讲目标:列出与模块目标对应的本讲目标
O预备知识:说明对某一部分或者整体概念的理解有特定作用的预备知识点
O交叉参考:将整个模块中的相关概念联系起来,启发参与者理解分析工具的不同功能
职责和挑战,确保概念不被孤立地学习

O总体情况:不断提醒参与者某个主题为什么是相关的,在行业中如何应用,从而为学习
提供实践参考
O快速提示:提供高效地运用概念的技巧
O与现实生活的联系:提供简短的案例分析和简报,阐述概念在现实世界中的适用性
O技术材料:提供加强技术诀窍理解的技巧和信息
O定义:定义重要概念或者术语
O附加知识:提供相关的附加信息
O知识检.测点:提出互动式课堂讨论的问题,强化每一讲之后的学习。
O练习:在每一讲结束时提出以知识为基础的实践问题,评估理解情况
O测试你的能力:提供基于应用的实践问题
O备忘单:提供这一讲涵盖的重要步骤及过程的快速参考。
关键的大数据技术术语
大数据是一个非常年轻的行业,新的技术和术语每周都会出现。这种快节奏的环境是由开源
社区、新兴技术公司以及IBM、 Oracle、SAP、SAS和 Teradata这样的业界巨人推动的。不用说
建立一个持久的权威术语表是很难的。鉴于这样的风险,我们在这里只提供一个小型的大数据词
汇表,如表3所示。

用来分析数据的数学方法。一般情况下,是一段计算过程:计算一个功能的指令列表:在软
件中,这样一个过程以编程语言来实际实现
组用于查询和梳理平台数据的分析工具和计算能力
专为特定活动集建立的一组优化的硬件和软件
AVTo
可编码 Hadoop文件模式的数据序列化系统,特别擅长于数据解析,是 Apache Hadoop
项目的一部分
批处理
在后台运行、不与人发生交互的作业或_进.程_
大数据
数据事实上的标准定义是超越了传统的3个维度(数据量、多样性、速度)限制的数据
这3个锥度的结合使得数据的提取、处理和呈现更加复杂
Big Insights
IBM的具有企业级增值组件的Hadp商业发行版
由 Apache软件基金会管理的开源列式数据库
Clojure
基于LISP(从20世纪50年代起的人工智能编程语言事实标准)的动态编程语言,读
closure”。通常用于并行数据处理
用以指代任何计算机运作的软件、硬件或服务资源的通用术语。它作为一种服务通过网络传
Hadoop的第一个商业分销商。 Cloudera提供了 Hadoop发行版的企业级增值组件
按列进行的数据存储与优化。使用基于列的数器,对于一些分析处理特别
复杂事件处理(CEP)对实时发生事件进行分析并采取措施的过程


#############################################



楓葉晓寒 发表于 2019-12-21 19:38:56



免费下载地址:

http://pan.qqq0.com/file/488067-425774490

页: [1]
查看完整版本: 电子书:《NoSQLHadoop组件及大数据实施大数据开发者权威教程》_Wrox_2018-12-01