值得关注的10家热门Hadoop初创公司

通过杰夫·万斯

CIO |

随着数据量的增长，弄清楚如何释放值变得非常重要。Hadoop支持在分布式环境中处理大型数据集，几乎已经成为大数据的同义词。以下是10家为大数据价值提供解决方案的初创公司。

数据量呈指数级增长已经不是什么秘密了。更神秘的是如何解开所有这些数据的价值。这个问题的一个主要原因是，传统的数据库不是为大数据规模的数据量而设计的，也不是为合并来自不同应用程序的不同类型的数据(结构化和非结构化)而设计的。

最近，支持在分布式环境中处理大型数据集的开源框架Apache Hadoop几乎已经成为大数据的同义词。使用Hadoop，终端用户可以在由数千个节点组成的系统上运行应用程序，这些节点可以获取数千兆兆字节的数据。

据Gartner估计，目前的Hadoop生态系统的市场价值约为77亿$。该研究公司预计，这一数字到2016年将膨胀至8.13亿$。

(9个领先的商业Hadoop发行版是如何堆叠起来的]

(用于处理大数据的Hadoop工具]

以下是10家希望在这片近10亿美元的蛋糕中分得一杯羹的初创公司。这些初创公司是根据资金、已命名的客户、竞争地位、高管的业绩记录、阐明现实问题的能力以及解释为什么初创公司的解决方案是解决问题的理想方案的能力来选择和排名的。

（请注意，这有利于阵容新创公司。其结果是，一些大，资金雄厚的名字已被不放过，如Cloudera的，Datameer，DataStax，并MAPR技术，仅仅是因为他们已经在这个比大多数的时间更长新的市场领域。）

1.Platfora

他们的工作:提供大数据分析解决方案，将原始数据在Hadoop中为互动，在内存中的商业智能。

总部:加州San Mateo。

CEO：Ben Werther，他曾担任DataStax的产品副总裁。

成立时间：2011

资金：6千5百万美元最新一轮融资(3800万美元C轮)已于今年3月锁定。Tenaya Capital领投，花旗投资、思科、Allegis Capital、Andreessen Horowitz、Battery Ventures、Sutter Hill Ventures和In-Q-Tel均参与。

他们为什么在此列表：和榜单上的许多初创公司一样，Platfora的成立是为了简化Hadoop。虽然企业已经迅速采用Apache Hadoop作为一种可伸缩且廉价的解决方案来存储大量数据，但它们很难从这些数据中提取有意义的价值。Platfora解决方案掩盖了Hadoop的复杂性，这使得业务分析师更容易利用其组织的大量数据。

Platfora试图简化了数据收集和分析过程中，自动转化在Hadoop中原始数据转换成互动，内存商务智能，设有仓储不需要ETL和数据。Platfora提供了一个探索性的商业智能和分析平台，旨在为业务分析师。Platfora使业务分析师视觉，自助服务分析工具，帮助他们从事件，行为和商业行为的事实导航。

客户包括Comcast公司，迪斯尼，Edmunds.com和华盛顿邮报。

竞争格局:Platfora与Datameer、Tableau、IBM、SAP、SAS、Alpine Data和Rapid-I等竞争。

关键的区别：Platfora宣称拥有首个面向Hadoop的可扩展内存大数据分析平台。Platfora对简化Hadoop和大数据分析的关注已经成为最近的一个共同目标，但他们在这方面还处于起步阶段。

2.高山数据实验室

他们的工作:提供一个基于Hadoop的数据分析平台。

总部:旧金山,加利福尼亚州。

CEO：乔·奥托，Greenplum的前销售和服务高级副总裁。

成立时间：2010

资金：$ 23.5万美元的资金总额，包括$ 16的B系列融资，从Sierra Ventures公司，风险投资公司的使命，UMC Capital和罗伯特博世创业投资。

他们为什么在此列表：大多数高管和经理不必为了搜集数据洞察的时间或技能代码，也不需要了解Hadoop等复杂的新基础设施的时间。相反，他们希望看到大局。麻烦的是，复杂先进的分析和机器学习通常需要脚本和编码的专业知识，这可以限制对数据的访问科学家。高山数据通过使预测分析通过SaaS访问减轻这个问题。

Alpine Data提供了一种可视化的拖放方法，允许整个组织的数据分析师(或任何指定用户)使用大型数据集工作、开发和细化模型，以及大规模协作，而无需编写代码。通过本地托管的Web应用程序，在实时环境中分析数据，而不需要迁移或采样。

Alpine Data利用了Hadoop和MPP数据库的并行处理能力，并在MapReduce和SQL中实现了数据挖掘算法。用户直接在数据所在的位置与数据交互。然后，他们可以设计分析工作流，而不用担心数据移动。所有这些都是在Web浏览器中完成的，然后Alpine Data将这些可视化的工作流转换成一系列数据库内或MapReduce任务。

客户包括索尼、Havas Media、Scala、Visa、Xactly、NBC、Avast、黑莓和摩根士丹利。

竞争格局:Alpine将与老牌公司(SAS、IBM、SPSS和SAP)以及新公司(Nuevora、Platfora、Skytree、Revolution Analytics和Rapid-I)竞争。

关键的区别：Alpine Data Labs认为，大多数竞争性的解决方案要么是基于桌面的，要么是没有任何协作能力的点解决方案。相比之下，Alpine的数据给人一种“共享”的感觉。除了协作和搜索之外，它还提供建模和机器学习。Alpine也是“无数据移动”阵营的一员。不管公司的数据是在Hadoop还是MPP数据库中，Alpine都可以通过它的集群内分析发送指令，而不需要移动数据。

3.Altiscale

他们的工作:提供Hadoop的作为一种服务（HAAS）。

总部:帕洛阿尔托,加州。

CEO：雅虎前首席技术官雷米·斯塔塔说。

成立时间：2012年3月

资金：Altiscale由1200万$在从通用催化剂和红杉资本A系列资金的支持下，从各个支持者一起投资。

他们为什么在此列表：Hadoop已经几乎成为了大数据的代名词，然而现有的Hadoop专家的数量却无法满足需求。因此，哈斯商学院的市场应该与大数据齐头并进。事实上，根据TechNavio的说法，哈斯市场将在2016年顶部$ 19日十亿。

Altiscale的服务旨在Hadoop的抽象的复杂性。Altiscale的工程师组建，运行和管理Hadoop的环境为他们的客户，使客户能够专注于他们的数据和应用程序。当客户的需求发生变化，服务缩放到适合 - 一个基于云的服务的核心优势之一。

客户包括市场份额和互联网档案。

竞争格局:哈斯的房子越来越热了。竞争对手来自现有公司，比如亚马逊的Elastic MapReduce (EMR)，微软的Azure上的Hadoop，以及Rackspace的基于Hortonworks发行版的服务。Altiscale还将与Hortonworks以及Cloudera、Mortar Data、Qubole和Xpleny等初创公司展开直接竞争。

关键的区别：Altiscale认为他们是“唯一一家真正提供一个汤到坚果Hadoop的部署相比较而言，AWS力公司收购，安装，部署和管理Hadoop实现。 - 一些需要大量的时间”

4.Trifacta

他们的工作:提供一个平台，使用户能够将原始的、复杂的数据转换为干净的、结构化的格式，以便进行分析。

总部:旧金山,加利福尼亚州。

CEO：Joe Hellerstein除了担任Trifacta的首席执行官外，还是伯克利大学的计算机科学教授。2010年，《财富》杂志(Fortune)将他列入了50位最聪明的科技界人士，《麻省理工技术评论》(MIT technology Review)将他用于云计算的Bloom语言列入了“最有可能改变世界的10种技术”TR10榜单。

成立时间：2012

资金：Trifacta获得了来自Accel Partners、XSeed Capital、Data Collective、Greylock Partners和个人投资者两轮融资的1630万美元的支持。

他们为什么在此列表：Trifacta表示，大数据技术平台和数据分析工具之间的数据链存在瓶颈。业务分析师、数据科学家和IT程序员花费过多的时间转换数据。例如，数据科学家花费60%到80%的时间来转换数据。与此同时，业务数据分析师没有独立处理新数据集的技术能力。

为了解决这个问题，Trifacta使用“预测交互”技术将数据操作提升为可视化体验，允许用户快速、轻松地识别感兴趣或关注的特性。当分析人员强调可视化特性时，Trifacta的预测算法会观察用户行为和数据的属性，从而预测用户的意图，在不需要用户说明的情况下提出建议。结果，繁琐的数据转换任务变成了轻量级的体验，比传统方法更加敏捷和有效。洛克希德·马丁公司和Accretive Health公司是其早期客户。

竞争格局:Trifacta将与Paxata、Informatica和CirroHow竞争。

关键的区别：Trifacta认为，数据转换问题需要一种全新的交互模型——将人类业务洞察力与机器智能结合起来。Trifacta的平台将可视化交互与智能推理和“预测交互”技术相结合，以缩小人与数据之间的差距。

5。拼接机

他们的工作:提供专为大数据应用的基于Hadoop的，兼容SQL的数据库。

总部:旧金山,加利福尼亚州。

CEO：蒙自韦，谁曾在美国航天局艾姆斯研究中心，在那里他担任副科总人工智能分公司工作。后来，他创办并担任蓝尼软件公司首席执行官。

成立时间：2012

资金：他们得到了来自Interwest Partners和Mohr Davidow Ventures 1900万美元的资金支持。

他们为什么在此列表：应用程序和Web开发人员已被移动从传统的关系型数据库离开由于迅速增长的数据量和不断变化的数据类型。需要新的解决方案来解决缩放和模式的问题。熔接机认为，即使短短数个月前的Hadoop，而作为一个伟大的地方来存储大量的数据来看，还没有准备好电源应用。

现在，随着新兴的数据库解决方案的出现，使RDBMS如此流行了这么久的特性，如ACID遵从性、事务完整性和标准SQL，都可以在成本效益高且可伸缩的Hadoop平台上使用。Splice Machine认为，这使开发人员能够在一个通用数据库平台上同时利用这两个世界。

熔接机提供了NoSQL数据库，如自动分片，可扩展性，容错性和高可用性的所有优点，同时保留SQL，这仍然是行业标准。熔接机优化复杂查询到大规模电力实时OLTP和OLAP应用程序，无需重写现有的基于SQL的应用程序和BI工具集成。通过利用分布式计算，熔接机可以通过简单地增加更多的商品服务器从TB到PB级规模。熔接机能够在不牺牲SQL功能或符合ACID是一个RDBMS的基石提供这种可扩展性。

竞争格局:竞争对手包括Cloudera的，MemSQL，NuoDB，Datastax，和VoltDB。

关键的区别：Splice Machine声称拥有唯一支持实时大数据应用的hadoop上的事务sql数据库。

6。DataTorrent

他们的工作:提供建立在Hadoop上的实时流处理平台。

总部:加利福尼亚州圣克拉拉。

CEO：富晃，谁是以前在雅虎，并担任工程执行副总裁的工程团队的创始成员。

成立时间：2012

资金：2013年6月，该公司完成了800万美元的首轮融资。这轮融资由August Capital牵头，AME Cloud Ventures加入。该公司此前从莫拉多风险投资公司(Morado Ventures)和法扎德•纳赞姆(Farzad Nazem)获得了75万美元的种子基金。

他们为什么在此列表：DataTorrent认为，在考虑大数据解决方案时，我们很快就会开始考虑延迟问题。DataTorrent指出，“数据正在发生，从各种来源源源不断地流入——实时的，每时每刻刻。”Many organizations struggle to process, analyze, and act on this never-ending and ever-growing stream of information -- at all.

对于一些见解，通过时间数据存储到磁盘，分析，并回答了 - 这已经太晚了。举例来说，如果一个黑客危及信用卡帐户，并设法使一些收购，造成大量伤害已经完成，即使该帐户在几分钟内切断。DataTorrent认为，一个组织的认识和应对事件的能力瞬间不仅仅是一个企业的优势。在今天的话，这是一种必然。

1 2 第1页下一个

第1页共2页

工资调查:结果在