海量数据使得Hadoop的热

用户和分析人士说,复杂的数据分析需求推动了人们对开源Hadoop技术的兴趣

结构化和非结构化数据的快速增长的疮,促使IT经理转向开源的Hadoop技术进行存储和分析工作。

从网络日志,点击工具,社交媒体产品及产生的非结构化数据的海量增加企业的努力,搜集商业情报等等,导致了在开源的Hadoop技术的兴趣大增,分析师说。

Hadoop是Apache数据管理软件项目,源于谷歌的MapReduce分布式计算软件框架,旨在支持使用大量非结构化和结构化数据的应用程序。

不同于传统的关系型数据库管理系统,Hadoop是设计成与多种数据类型和数据源的工作。Hadoop的分布式文件系统(HDFS)技术允许大量的应用工作负载被分解成被复制和分发商品跨越硬件的簇为加快处理速度较小的数据块

该技术已经被一些世界上最大的网络资源,如Facebook,eBay,亚马逊,百度和雅虎的使用widey。观察家指出,雅虎一直是最大的贡献者的Hadoop之一。

日益,Hadoop的技术用于在银行,广告公司,生命科学公司,制药公司和其他企业的IT运营,与RedMonk公司的分析师斯蒂芬说。

是什么力量推动Hadoop是由公司的愿望利用不同种类的大量O’grady说:“我们需要大量的数据来做出商业决策。专家说,这项技术可以让公司相对有效地处理tb甚至pb级的复杂数据,成本也比传统的关系型数据库管理系统低很多。

“有了Hadoop,你甚至可以让一个一两个人的初创公司处理和世界上一些最大的公司一样多的数据,”他说。

Hadoop的用户Tynt,一个Web分析公司,为超过50万名的网站提供分析服务。它的主要产品是一种服务,让内容发布商可以深入了解他们的内容是如何被共享。平均每天Tynt收集并分析从数以亿计的网页交互的网站上,它监测数据接近1万亿字节。

公司切换到Hadoop的大约18个月前,当它的MySQL数据库基础设施开始数据的绝对数量是Tynt正在收集下崩溃。

“从哲学上讲,Hadoop是一个完全不同的动物,”Tynt的工程副总裁卡梅伦·比弗斯(Cameron Befus)说。

关系数据库技术主要关注数据检索速度、复杂查询支持和事务的可靠性、完整性和一致性。“他们做得不好的是迅速接受新数据,”他说。

“Hadoop的反转这一点。你可以把数据转化为在Hadoop的快的离谱的价格,”他说。Hadoop的文件结构允许公司基本上捕获和整合几乎任何结构和复杂的数据类型,如Web服务器日志,元数据,音频和视频文件,非结构化的电子邮件内容,Twitter的数据流和社交媒体内容,他说。

因此,该技术非常适合企业寻找,分析结构化和非结构化海量数据。

然而,从HDFS中检索和处理原始数据并不像典型的数据库系统那样容易或方便,因为数据没有组织或结构,Befus说。Hadoop所做的本质是将数据写入大文件中。它不关心文件中的内容。它只是管理它们,确保它们有多个副本。”

在早期,用户必须在编程语言如Java写的作业,以便在Hadoop中进行解析,然后查询原始数据。但工具现已可用于编写类似SQL的存储在Hadoop的数据查询,Befus说。

Tynt使用一个叫做Pig的流行工具来对Hadoop编写查询。另一个广泛使用的选项是Hive。

据Befus说,Hadoop的架构使得它非常适合运行涉及“大数据”的批处理应用程序。

Hadoop的可用于更多的实时商业智能应用程序也是如此。

像OpenLogic这样的公司已经开始使用另一种基于Hadoop的开源技术HBase来实现在HDFS中快速查询数据。HBase是一个面向列的Hadoop数据存储,支持实时访问和查询Hadoop中的数据。

OpenLogic为企业提供了一种服务,用于验证开放源代码的属性是否正确,以及是否完全符合开放源代码许可证。

为了提供服务,OpenLogic维护成千上万的开源软件包的综合数据库。该公司将元数据存储,版本号和修订历史记录,存储在Hadoop集群上。数据通过HBase的访问。

OpenLogic的首席技术官罗德•柯普(Rod Cope)表示,该公司利用Hadoop将两个世界的优势都发挥到了极致。“我们拥有的很多数据都不适合像MySQL和Oracle这样的RDBMS。所以最好的选择就是Hadoop。”

他说,通过在Hadoop上运行HBase, OpenLogic也能够以几乎与传统数据库技术相同的方式实现实时数据访问。

有与使用Hadoop的相关的一些注意事项,用户注意。

“最大的挑战是,这仍然是年轻的技术有很多运动部件的,”科普说。“你必须配置和安装和集成多个组件,并让他们的工作只是如此,这是一个不平凡的过程。”

IT专业人员相对缺乏Hadoop专业知识是另一个大问题,Befus说。

“这是很难找到任何与Hadoop的任何经验,”他说。事实上,Hadoop是不太成熟的技术但也意味着企业需要一流的业务人员,以处理潜在的故障。

无论OpenLogic和Tynt正在使用Cloudera的Hadoop的支持工具

Cloudera为Hadoop提供技术支持、实现帮助、bug修复和补丁等服务。它还提供了一个开源技术的Cloudera发行版,包括核心Apache Hadoop和9个相关的开源工具,它们都集成在一个包中。

Jaikumar Vijayan为Computerworld报道数据安全和隐私问题、金融服务安全和电子投票。在推特上关注Jaikumar@jaivijayan或订阅Jaikumar的RSS提要。他的电子邮件地址是jvijayan@computerworld.com

了解更多关于商业智能和分析在Computerworld的BI和分析主题中心。

这个故事,“海量数据使得Hadoop的热”最初由出版计算机世界

加入对网络世界的社足球竞猜app软件区脸谱网LinkedIn对最重要的话题发表评论。

©2011足球竞彩网下载

IT薪资调查:结果是