在过去的几年中,价值8.3亿美元的上市数据分析公司Neustar经历了一场戏剧性的业务转型,几乎完全由Hadoop驱动。
该公司有向电信和互联网提供商提供实时信息的历史——从号码移植、域名注册到提供短码(许多移动运营商的短信基础)。
(更大的数据:10个现实世界的大数据部署将改变我们的生活]
2011年,Neustar有能力追踪大约60天的历史数据,但新的管理层要求该公司为客户提供更全面的服务。Neustar平台和数据架构副总裁迈克尔•彼得森(Michael Peterson)回忆道:“我们不打算只是砸钱解决问题。自然的选择是开源。
彼得森和他的团队没有扩展专有的Oracle和IBM Netezza平台,而是转向了Hadoop。最初,Neustar的技术人员与Cloudera合作,后者提供了开源Apache Hadoop项目的打包发行版。但后来开发人员真正开始在开源世界中工作。他说:“我们试图摆脱的一件事是,预先包装的供应商拥有专有的东西。”Hortonworks是在Neustar开始Hadoop之旅几个月后成立的,被他称为“完美的契合”。
Hortonworks于2011年诞生于雅虎(Yahoo),当时一些最初创建了该搜索网站的分布式架构平台的工程师离开了雅虎,成立了一家支持开源Hadoop项目的公司。Hortonworks与开源的Apache Hadoop代码库和雅虎保持密切联系。在作为Hortonworks发行版发布之前,来自Apache项目的每一个新代码集都要经过Hortonworks在雅虎的40,000个节点的大型集群上的测试。这在科技市场上引起了一些关注。最近Hortonworks已经和一些大牌合作伙伴签约,包括微软、Rackspace、Teradata,它甚至还加入了OpenStack基金会。行业观察人士说,这些举措不仅使这家公司合法化,也使更广泛的开源Hadoop运动合法化。
对于Neustar来说,Hortonworks是一个很好的选择。他们得到了预先打包的开源Hadoop代码,但因为它是忠于主干的,所以他们可以在其之上进行迭代,并回馈给开源社区。如今,Neustar拥有一个120个节点的Hadoop集群,管理着超过2pb的数据,包括它过去18个月收集的数据,而不是之前的60天。通过新的平台,Neustar现在可以为客户提供长期数据集、趋势可视化和历史分析,所有这些都由Hadoop提供支持。
在Neustar,不仅仅是业务产品发生了变化——整个It团队的文化已经转变为一个开源思维团队,Peterson说。工程师们现在正在试验一个OpenStack私有云部署。他说:“整个过程直接符合我们想要的敏捷方式,它允许我们承担经过计算的风险,并以一种我们可以看到结果的方式快速地做事情。”
Hortonworks的高管们表示,新一轮的数据浪潮推动了对Hadoop等新平台的需求。网络会话、社交媒体交互和机器传感器产生大量的数据,但它们并不适合传统的关系型企业数据库,因此出现了NoSQL数据库平台。
在过去,这些数据库处理的大部分信息都掉到了地上,从来没有被收集起来。现在,像Neustar这样的公司意识到,如果他们能够管理这些数据,他们实际上可以对这些数据做些什么。Hortonworks数据平台(HDP)是该公司发行版的名称,它是100%开源的Apache Hadoop代码,由Hortonworks编译,并作为一个企业软件包发布,旨在在商品硬件上运行。
Hortonworks的营销副总裁David McJannet说,Hortonworks的部署到目前为止主要集中在补充现有的数据仓库工具,通常是SQL数据库。他刚刚加入Hortonworks,之前在VMware和微软工作过。HDP可以与传统平台结合使用来管理新的非结构化数据,这些数据目前组织通常没有很好的管理方式。数据可以由Hadoop管理,或者直接提供给Hadoop之上的分析工具,或者反馈给企业可能已经拥有的更传统的sql风格的数据库。
Hadoop处理的数据对公司来说非常有价值。零售商——从硬件商店和杂货店——到电子商务网站,都可以显著地记录更多关于每个访问其网站的个人访问者的数据,他们的模式和历史,所有这些都是为了更好地服务他们。Hadoop能够在不影响性能的情况下水平扩展到大规模。
现在一些技术领域的大公司也在购买这个平台。在过去的几个月里,霍顿工厂一直在进行一场疯狂的合作。首先,Teradata和微软宣布他们将把HDP纳入他们的分析产品。随后,Rackspace宣布Hortonworks将用于在其基于openstack的公共云上探索一种hadoop即服务类型的产品。Hortonworks后来加入了开源云管理平台OpenStack。
“他们找到了我们,”麦克珍妮特谈到霍顿工厂和微软的合作是如何开始的。微软集成了HDP进入其商业智能产品,特别是HD Insights Server。通过这样做,微软也开始回馈开源社区。微软是第一个支持Hadoop运行的公司窗户-它以前只工作Linux现在,一位微软工程师主持着Apache的Hadoop项目。451研究集团(451 Research Group)分析师马修·阿斯莱特(Matthew Aslett)表示,微软对Hadoop的支持,特别是Hortonworks,可能会让大数据平台向企业大众开放。
[进展报告:建设和管理21世纪的数据中心2020欧洲杯预赛]
不过,Hortonworks并不是唯一一家建立合作伙伴的Hadoop公司。该公司最大的竞争对手是Cloudera,后者在过去一年中也建立了一系列合作伙伴关系。甲骨文公司思科美国、IBM、惠普、戴尔和NetApp都是Cloudera的上市合作伙伴。例如,思科和IBM都有针对Cloudera Hadoop部署的参考配置体系结构。Oracle有一个键值大数据设备。
跟踪数据库和大数据市场的阿斯莱特表示:“合作是两家公司战略的关键途径。”他说,这种合作关系是双赢的。Hortonworks和Cloudera将Hadoop推向主要的IT供应商,这些供应商可以为他们现有的客户宣传该平台,而大牌供应商则确保他们在下一代数据库技术中发挥作用。
Hadoop现在是IT界的热门话题。Hortonworks表示,去年由Hortonworks领导的首届Hadoop峰会吸引了2300多名与会者,今年的预期会更大。Neustar副总裁彼得森说,参与开源Hadoop社区是一种无价的资源。他说:“Hortonworks是一家将你融入那个社区的公司。”“如果你是一家关注下一代工程师以及他们将组建什么样的团队的公司,那么开源就是你需要做的,以激励这个团队。”有了开源,每个开发人员的才能都可以为更大的利益发挥作用。他表示:“成为其中一员是一种惊人的趋势。”
注意:这篇文章被编辑了,去掉了Cloudera作为Hadoop专有发行公司的参考。Cloudera有一些专有的管理功能来补充Hadoop,但是它的发行版仍然是基于开放源代码的。
足球竞猜app软件网络世界资深作家布兰登·巴特勒封面云计算和社会协作。可以和他联系BButler@nww.com,发现在推特在@BButlerNWW。