电子书:《Spark全栈数据分析》_Wang道远译_2018-11-01

[复制链接]
查看1136 | 回复1 | 2019-12-16 13:02:34 | 显示全部楼层 |阅读模式

多种网盘链接检测插件
购买前,请先检测网盘链接是否有效


                       

《Spark全栈数据分析》_Wang道远译_2018-11-01_1

《Spark全栈数据分析》_Wang道远译_2018-11-01_1

《Spark全栈数据分析》_Wang道远译_2018-11-01_2

《Spark全栈数据分析》_Wang道远译_2018-11-01_2

《Spark全栈数据分析》_Wang道远译_2018-11-01_3

《Spark全栈数据分析》_Wang道远译_2018-11-01_3


内容简介:

敏捷开发的环境:提高生产效率
第2章敏捷工具
可伸缩性=易用性
sg00
敏捷数据科学之数据处理
搭建本地环境
配置要求
配置 vagrant
下载数据
搭建EC2环境
下载数据
33483
下载并运行代码
运行代码
Jupyter笔记本
敏捷开发工具栈的要求
Python 3
使用JSON行和 Parque序列化事件
收集数据
使用Spak进行数据处理
使用 MongoDB发布数据
使用 Elasticsearch搜索数据
使用 Apache Kafka分发流数据
使用 PySpark Streaming处理流数据
使用 scikit-learm与 Spark MLlib进行机器学习
使用 Apache Airflow(孵化项目)进行调度
反思我们的工作流程
轻量级网络应用
展示数据

本章小结
第3章数据.
飞行航班数据
航班准点情况数据
OpenFlights数据库
敏捷数据科学中的数据处理
结构化数据vs.半结构化数据
SQL VS NOSQL.
NOSQL与数据流编程……
SQL t NOSQL
中的表结构…
数据序列化
动态结构表的特征提取
本章小结
第‖部分攀登金字塔
第4章记录收集与展示
整体使用
航班数据收集与序列化
航班记录处理与发布
把航班记录发布到 MongoDB.
在浏览器中展示航班记录
使用Jna2渲染HTML5页面
敏捷开发检查站
列出航班记录
使用 MongoDB列出航班记录

搜索航班数据
创建索引
发布航班数据到 Elasticsearch
过网 页搜索航班数据
本章小结
第5章使用图表进行数据可视化
119
图表质量:迭代至关重要
用发布装饰模型伸缩数据库
121
阶形式
选择一种形式
探究时令性
查询并展示航班总数
提取“金属”(飞机(实体)
132
提取机尾编号
评估飞机记录
数据完善
页表单_逆.向_工程
收集机尾编号
自动化表单提交
从HTML中提取数据
评价完善后的数据
本章小结
第6章通过报表探索数据
149
使用 PySpark把航空公司定义为飞机的分组
EMongoDB中查询航空公司数据
在 Flask中构建航空公司页面
添加回到航空公司页面的链接
目录
仅供事商业用途或交流学习使用

创建一个包括所有航空公司的主页
整理半结构化数据的本体关系
改进航空公司页面
整合维基_百[]科_内容
把扩充过的航空公司表发布到 MongoDB
在网 页上扩充航空公司信息
调查飞机(实体)
嵌套査询vs.数据流编程
不使用嵌套查询的数据流编程
Spark SQL中的子查询
创建飞机主页
在飞机页面上添加搜索
创建飞机制造商的条形图
.172
对飞机制造商条形图进行迭代
实体解析:新一轮图表迭代
本章小结
第7章进行预测
185
预测的作用
预测什么
预测分析导论
探索航班延误
使用 PySpark提取特征
使用 scikit-learn构建回归模型
读取数据
数据采样
向量化处理结果
准备训练数据
稀疏矩阵与稠密矩阵

准备实验
训练模型
测试模型
使用 Spark MLlib构建分类器
使用专用结构加载训练数据
处理空值
用 Route(路线)替代 FlightNum(航班号)
00
对连续变量分桶以用于分类
211
使用 pyspark. mLfeature向量化处理特征
用 Spark ML做分类
本章小结
第8章部署预测系统
把 saiki-leam应用部署为网络服务
scikit-learT模型的保存与读
提供预测模型的准备工作
为航班延误回归分析创建API
测试API
在产品中使用API
使用 Airflow部署批处理模式 Spark ML应用
Spark ML模型的训练、存储与加载
在 MongoDB中创建预测请求
从 MongoDB中获取预测请求
吏用 Spark ML以批处理模式进行预测
用 MongoL保存预测结
在网络应用中展示批处理预测结果
253
用 Apache Airflow(孵化项目)自动化工作流
.256
用 Spark Streaming部署流式计算模式 Spark ML应用
在生产环境中收集训练数据


#############################################


回复

使用道具 举报

哈哈大笑 | 2019-12-21 19:49:30 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则