回顾2014年

Hadoop继任者引发了数据分析的演变

如果说2014年是Apache Hadoop引发大数据革命的一年,那么2015年可能是Apache Spark以其更丰富、更及时的分析能力取代Hadoop的一年。

IT分析公司Monash Research的负责人Curt Monash说:“业界有一种强烈的共识,认为Spark是正确的选择。”

+也:参见网络足球竞猜app软件世界回顾2014年的故事列表+

明年,你会看到很多Hadoop超越Hadoop的用例,”阿里Ghodsi说砖产品管理和工程主管,公司由许多的创造者提供托管的火花引发服务,以及技术支持软件分销商销售火花包。

Spark是一个用于分析存储在计算机集群中的数据的引擎。与Hadoop一样,Spark可用于检查那些太大而无法装入传统数据仓库或关系数据库的数据集。与Hadoop一样,Spark也可以处理未格式化为数据库表的非结构化数据,比如事件日志。

然而,Spark不止于此Hadoop很容易做到,因为它可以分析流出的流数据。

因此,它可以作为用于数据分析的Hadoop MapReduce框架的更快的替代品。在年度代托纳灰色排序挑战(Daytona Gray Sort Challenge)中,Spark测试了数据分析系统的速度轻松地战胜了Hadoop MapReduce,能够在23分钟内对100tb的记录进行排序;Hadoop执行同样的任务要花三倍多的时间,大约72分钟。

最初,实时处理似乎不是一个大的区别,然而,这种能力已经被用于创建全新的业务线。

ClearStory Data首席执行官兼联合创始人Sharmila Shahani-Mulligan解释说:“我们围绕Spark建立了知识产权。”天窗的数据提供一种新的商业智能服务这使得团队可以将一系列可视化的数据组合成一个叙述,就好像他们是一个PowerPoint演示。数据可以来自许多来源,并且可以在新数据进来时进行更新。

“人们想要更快的响应时间。他们不想等一天才能得到答案。”例如,Spark可以用来帮助数字广告商根据用户最近的几次点击来决定向他们投放什么广告,而不是根据他们几天或几周前点击了什么网站。Spark的数据处理速度非常重要,因为当我们收集的数据量快速增长时,计算机处理能力的进步却在逐渐减弱。

Spark还提供了更丰富的数据分析方法,莫纳什说。Hadoop的默认分析引擎MapReduce主要能够执行一种问题,包括跨不同服务器的数据过滤和排序(任务的“映射”部分)和结果汇总(问题的“减少”部分)。

相比之下,Spark被设计用来处理涉及机器学习和预测建模等技术的更复杂的查询。“Hadoop MapReduce非常擅长的事情,Spark可能会做得更好,”莫纳什说。

另一个早期采用Spark的公司是音乐流媒体服务Spotify,它使用该技术来根据用户的特定喜好生成音乐播放列表基于一套机器学习算法。

甚至Hadoop用户也得到了这个消息。Hadoop分发商Cloudera也在其发行版本中包含了Spark,大约有60个企业客户以某种形式使用Spark吗莫纳什说。其他Hadoop发行商,特别是Hortonworks和MapR,也在它们的发行版中提供了Spark。

星火项目于2008年在加州大学伯克利分校启动AMPLab(AMP代表算法、机器和人)。现在在Apache软件基金会的指导下,这个项目比任何其他Apache软件项目获得更多的贡献。核心贡献者包括来自英特尔(Intel)、雅虎(Yahoo)、Groupon、阿里巴巴(Alibaba)和Mint等公司的工程师和开发者。

Spark可以与Hadoop结合使用,用于分析Hadoop文件系统(HDFS)上的数据,或者它可以自己运行。开发人员使用Python、Java或Scala编程语言在Spark基础上构建应用程序。

Databricks联合创始人雷诺德•辛(Reynold Xin)表示:“Spark的部分吸引力在于它有一个相当不错的API(应用程序编程接口),开发者和工程师都可以使用它。”

Databricks的Ghodsi预测,明年我们将看到更多基于Spark的产品和服务。程序员经常被问及他们的“火花”。

Ghodsi说:“我们有多个(工作)候选人说他们看到了多个令人兴奋的Spark项目。”

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对最重要的话题发表评论。
相关:

版权©2014足球竞彩网下载

工资调查:结果在