评论：星火照亮下的大数据处理火灾

Apache的火花带来高速，内存分析到Hadoop集群，以分钟而不是小时运算大规模数据集

Apache的星火在开始了其在2009年加州大学伯克利分校的AMPLab以大型数据集上执行的内存分析的方法。当时，Hadoop的MapReduce的集中在大型数据管道是不是在本质上是迭代。在2009年的MapReduce构建分析模型是一个非常缓慢的过程，所以AMPLab设计火花，可帮助开发人员完成的大型数据集交互分析和运行迭代工作负载，如机器学习算法，反复处理相同的数据集在RAM中。

星火不能取代的Hadoop。相反，它提供了具有高度重复的工作负载的替代处理引擎。通过避免昂贵的磁盘写入，星火工作经常跑很多个数量级比的Hadoop MapReduce的更快。通过“活性” Hadoop集群内，火花使用Hadoop的数据层（HDFS，HBase的，等），用于所述数据流水线的结束点，读取原始数据，并存储最后的结果。

编写星火应用

星火，写在斯卡拉，提供了数据处理的统一的抽象层，使之成为开发数据应用的大环境。火花来使用Scala，Java和Python语言绑定是，在大多数情况下，除了在最前沿，其中只有斯卡拉的实现方式有等同的选择。

一个在星火不错的功能是从斯卡拉或Python控制台的工作能力交互。这意味着你可以尝试代码并立即看到执行的结果。这无论是对于调试，在那里你可以改变一个值，而无需通过编译步骤会再次出发，对数据探索，其中一个典型的过程包括检查，可视化更新的紧密循环的得心应手。

火花的核心数据结构是弹性的分布式数据（RDD）集。在星火，司机程序写成一系列RDDS的变换，然后对他们的行动。变换，顾名思义，通过改变它们以某种方式，例如通过根据一些标准筛选数据创建从现有的新RDDS。操作上RDDS自己工作。此动作可能是计数数据类型的实例的数量或保存RDDS到一个文件中。

IT薪资调查：结果是