博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
让Spark成为你的瑞士军刀
阅读量:7090 次
发布时间:2019-06-28

本文共 801 字,大约阅读时间需要 2 分钟。

4f3f3316ae438e7e87a54931efe627a4fcf6a429
依托于Spark Streaming /Spark SQL,封装了一套通过配置和SQL就能完成批处理和流式处理的引擎,这样可以很好的完成复杂的ETL处理过程,实现了数据的流转和变换。
完成了数据的流转和变换,接着就是查询了,通过对Spark SQL的封装,我现在可以任意指定多个数据源,举个例子,将ES的索引A` 命名为表A,将来自HDFS 的Parquet 文件命名为表B,这个时候我就可以写SQL作任意的处理了。用户要做的就是选择对应数据来源,接着就是完成SQL就好。
能实现上面的功能得益于Spark
  • 统一易用的API,比如RDD/DF/DS
  • 功能丰富的组件,比如流式计算/批处理,机器学习,强大的SQL支持
Spark 背后的Databricks公司是我见过最重视
  • 用户API设计
  • 对领域问题具有高度抽象和设计能力
API 我就不说了,Spark的用户层API都是经过精心设计的,RDD自然不必说,上层的DF/DS 已经很好用,在2.0又更进一步统一了DF/DS (DF 是DS 类型为Row的一个特例),这样可以让用户进一步减少使用和理解障碍。而且机器学习相关的API 也要慢慢迁移到 DF/DS ,进一步简化用户学习和使用成本。
对领域问题的高度抽象能力,我觉得给我特别印象深刻的是机器学习相关的,几经发展,目前形成了一套完善的ML-Pipelines 的东西,结果是啥呢? 机器学习通过抽象以下几个概念
  • Estimator
  • Transformer
  • Pipeline
  • Parameter
  • DataFrame
实现了模块化。基于之上,你可以实现配置化来完成机器学习流程。
大数据现阶段在我目前看来从功能上可划分数据处理和机器学习。从架构上而言,则是流式计算和批处理。 Spark 目前的组件已经涵盖了大部分你需要的东西。加上上面我提及的几点,用好了,你会觉得很多事情变得很简单了。
微信链接:

转载地址:http://gnsql.baihongyu.com/

你可能感兴趣的文章
在使用ibatis实现多条件模糊查询的语句
查看>>
童宁_下一代数据中心的安全挑战
查看>>
android 3g状态及信号监测
查看>>
开源 java CMS - FreeCMS2.8 站点管理
查看>>
JSP中include指令和include行为区别
查看>>
关于zend studio 9.0版本汉化
查看>>
java web编程学习6
查看>>
CSS学习笔记——最基础的定义与使用
查看>>
形象的网络状况工具
查看>>
linux下mysql的root密码忘记解决方法
查看>>
Test
查看>>
Nginx配置文件nginx.conf中文详解(总结)
查看>>
范围分为
查看>>
一致性Hash算法(Consistent Hash)
查看>>
update the drawPictures
查看>>
Java中throw和throws的区别
查看>>
线程池
查看>>
人生路上的得与失,我要重新起航
查看>>
利用移动硬盘安装windows7系统
查看>>
Windows mobile UI
查看>>