评论:星火照亮下的大数据处理火灾

Apache的火花带来高速,内存分析到Hadoop集群,以分钟而不是小时运算大规模数据集

Apache的星火在开始了其在2009年加州大学伯克利分校的AMPLab以大型数据集上执行的内存分析的方法。当时,Hadoop的MapReduce的集中在大型数据管道是不是在本质上是迭代。在2009年的MapReduce构建分析模型是一个非常缓慢的过程,所以AMPLab设计火花,可帮助开发人员完成的大型数据集交互分析和运行迭代工作负载,如机器学习算法,反复处理相同的数据集在RAM中。

星火不能取代的Hadoop。相反,它提供了具有高度重复的工作负载的替代处理引擎。通过避免昂贵的磁盘写入,星火工作经常跑很多个数量级比的Hadoop MapReduce的更快。通过“活性” Hadoop集群内,火花使用Hadoop的数据层(HDFS,HBase的,等),用于所述数据流水线的结束点,读取原始数据,并存储最后的结果。

编写星火应用

星火,写在斯卡拉,提供了数据处理的统一的抽象层,使之成为开发数据应用的大环境。火花来使用Scala,Java和Python语言绑定是,在大多数情况下,除了在最前沿,其中只有斯卡拉的实现方式有等同的选择。

一个在星火不错的功能是从斯卡拉或Python控制台的工作能力交互。这意味着你可以尝试代码并立即看到执行的结果。这无论是对于调试,在那里你可以改变一个值,而无需通过编译步骤会再次出发,对数据探索,其中一个典型的过程包括检查,可视化更新的紧密循环的得心应手。

火花的核心数据结构是弹性的分布式数据(RDD)集。在星火,司机程序写成一系列RDDS的变换,然后对他们的行动。变换,顾名思义,通过改变它们以某种方式,例如通过根据一些标准筛选数据创建从现有的新RDDS。操作上RDDS自己工作。此动作可能是计数数据类型的实例的数量或保存RDDS到一个文件中。

继续阅读这篇文章现在注册

IT薪资调查:结果是