在数据忒工程副总裁Bill Loconzolo,跳进双脚数据湖。雅培院长,在智慧的Remarketer首席科学家的数据,提出了云中的直线。大数据和分析的领先优势,其中包括数据湖泊用于保持其原生格式庞大的数据存储,当然,云计算,是一个移动的目标,既发言权。虽然该技术方案成熟远,等待根本不是一个选项。
Loconzolo表示:“现实情况是,工具仍在出现,Hadoop平台的承诺还没有达到让企业依赖它的水平。”但大数据和分析的学科发展得如此之快,企业必须涉足其中,否则就有被甩在后面的风险。“在过去,新兴技术可能需要数年时间才能成熟,”他说。现在,人们在几个月甚至几周的时间里就能迭代并驱动解决方案。“那么,在你的观察列表中,或者在你的测试实验室中,最重要的新兴技术和趋势是什么呢?”《计算机世界》请IT领袖、咨询顾问和行业分析师参与讨论。这里是他们的列表。
在云1.大数据分析
Hadoop的一种用于处理非常大的数据集的框架和工具集,最初设计用于物理机器集群。这已经发生了改变。Forrester Research分析师布莱恩•霍普金斯(Brian Hopkins)表示:“现在有越来越多的技术可以用于处理云中的数据。”例如,Amazon的Redshift托管BI数据仓库、谷歌的BigQuery数据分析服务、IBM的Bluemix云平台和Amazon的Kinesis数据处理服务。他说:“大数据的未来状态将是一种现场和云的混合。”
智慧Remarketer,基于SaaS的零售分析的供应商,细分和营销服务,最近从一个内部移动Hadoop和MongoDB的数据库基础架构的亚马逊红移,基于云的数据仓库。印第安纳波利斯为本公司收集在线和砖和砂浆的零售销售和客户的人口统计数据,以及实时的行为数据,然后分析这些信息来帮助零售商创建有针对性的消息引发对消费者的一部分期望的响应,在某些情况下的实时性。
红移是更具成本效益的智能Remarketer的数据需求,雅培说,特别是因为它具有结构化的数据广泛的报告功能。而作为一个托管服务,它既是可扩展的,比较容易使用。“这是更便宜的扩大不是购买物理机虚拟机来管理自己,”他说。
总部位于加州山景城(Mountain View)的Intuit则谨慎地向云分析发展,因为它需要一个安全、稳定和可审计的环境。目前,这家金融软件公司把一切都放在自己的Intuit分析云里。Loconzolo说:“我们正在与亚马逊和Cloudera合作,研究如何建立一个公私合作、高可用性和安全的分析云,它可以跨越两个世界,但目前还没有人能解决这个问题。”然而,对于像Intuit这样销售运行在云中的产品的公司来说,向云转移是不可避免的。他表示:“将所有这些数据转移到私有云上的成本将非常高昂。”
2. Hadoop的:新的企业数据操作系统
分布式分析框架,如MapReduce的,正演变为分布式资源管理正在逐渐转向Hadoop的成通用数据操作系统霍普金斯说。有了这些系统,他说,“你可以把它们插入的Hadoop作为分布式文件存储系统执行多种不同的数据操作和分析操作。”
这对企业意味着什么?由于SQL、MapReduce、in-memory、流处理、图形分析和其他类型的工作负载都能够在Hadoop上运行,并且具有足够的性能,更多的企业将使用Hadoop作为企业数据中心。“对Hadoop中的数据运行许多不同类型的查询和数据操作的能力,将使它成为一个低成本、通用的地方,用来存放您希望能够分析的数据,”Hopkins说。
Intuit公司已经建立在其Hadoop的基础。“我们的策略是利用Hadoop分布式文件系统,它具有的MapReduce和Hadoop密切合作,作为一项长期战略,使所有类型的人与产品的互动,” Loconzolo说。
3.大数据的湖泊
传统的数据库理论决定了你设计的数据输入任何数据之前设置。数据湖,也被称为企业数据的湖泊或企业数据中心,圈,克里斯柯伦,在普华永道美国咨询业务本金和首席技术专家在其头部模型说。“它说,我们将这些数据源并转储全部成一个大的Hadoop库,我们不会试图预先设计一个数据模型,”他说。相反,它提供了工具,为人们分析数据,用什么在湖中存在数据的一个高层次的定义一起。“人们因为他们走建设意见后的数据。这对建设一个大型的数据库很增量,有机模式,”柯伦说。不利的一面,谁使用它的人必须高度熟练。
作为其忒分析云的一部分,忒有一个数据湖泊,包括点击流的用户数据和企业及第三方数据称,Loconzolo,但重点是“民主化”周围的工具,使商务人士有效地使用它。Loconzolo说,他关切在Hadoop中构建数据湖泊之一是,该平台是不是真的企业准备。“我们希望的功能,传统的企业数据库已经过了几十年 - 监视访问控制,加密,保护数据和跟踪从源到目的地的数据的血统,”他说。
4.更多的预测分析
霍普金斯说,有了大数据,分析人员不仅有更多的数据要处理,而且还有处理具有许多属性的大量记录的处理能力。传统的机器学习使用基于总体数据集样本的统计分析。他说:“你现在有能力做大量的记录,每条记录有大量的属性”,这增加了可预测性。
大数据和计算能力的结合也让分析师探索全天新的行为数据,例如所访问网站或位置。霍普金斯调用“稀疏数据”,因为要找到感兴趣的东西,你必须通过大量不要紧数据韦德。“试图使用传统的机器学习算法针对这种类型的数据是在计算上是不可能的。现在,我们可以把廉价的计算能力的问题,”他说。“你制定的问题完全不同,当速度和内存停火是关键问题,”雅培说。“现在你可以找到哪些变量是最好的分析通过这个问题推庞大的计算资源。这真的是一个改变游戏规则“。
“为了实现实时分析和预测建模出同Hadoop的核心,这就是兴趣是对我们来说,” Loconzolo说。这个问题一直是速度,用Hadoop以高达20倍更长的时间来回答比没有更成熟的技术问题。所以忒测试阿帕奇星火,大规模数据处理引擎,和其相关的SQL查询工具,星火SQL。“星火有这样快的交互式查询以及图形服务和视频流功能。这是保持内Hadoop的数据,但给人足够的性能,以缩小差距对我们来说,” Loconzolo说。
5.Hadoop上的SQL:更快、更好
如果你是一个聪明的程序员和数学家,你可以在Hadoop中对任何东西进行数据分析。高德纳(Gartner)的分析师马克•拜尔(Mark Beyer)表示,这既是前景,也是问题所在。“我需要有人把它转换成我熟悉的格式和语言结构,”他说。Beyer说,虽然任何熟悉的语言都可以工作,但这正是Hadoop产品的SQL的用得上之处。支持类似SQL的查询的工具允许已经了解SQL的业务用户对数据应用类似的技术。Hadoop上的SQL“为企业中的Hadoop打开了大门,”Hopkins说,因为企业不需要对高端数据科学家和业务分析师进行投资,他们可以使用Java、JavaScript和Python编写脚本——这是Hadoop用户传统上需要做的事情。
这些工具是什么新鲜事。Apache的蜂巢提供了一个结构化的结构化,类似于SQL的查询语言Hadoop的一段时间。但是,从Cloudera的,举足轻重的软件,IBM和其他厂商的商业选择,不仅提供更高的性能,而且正变得越来越快所有的时间。这使得该技术非常适合“迭代分析,”其中一位分析师问一个问题,接收答案,然后问另一个。这种类型的工作传统上需要构建数据仓库。SQL对Hadoop是不会取代数据仓库,至少不是很快,霍普金斯说,“但它确实提供了替代更昂贵的软件和某些类型的分析的设备。”
6.更多,更好的NoSQL
替代传统的基于SQL关系数据库,称为NoSQL的(以下简称“不仅SQL”)数据库,正在迅速普及为在特定种类的分析应用程序使用的工具,而这一势头将继续增长柯伦说。他估计有15至20的开源NoSQL数据库在那里,每个都有自己的专长。例如,NoSQL的产物与图形数据库功能,如ArangoDB,提供更快,更直接的方式来分析客户或销售人员不是做一个关系数据库之间的关系网络。“这些数据库已经存在了一段时间,但他们因为各种各样的分析人需要的红火,”他说。在新兴市场之一普华永道客户已对店内货架监测产品是否有什么传感器,长期客户如何处理他们,顾客多长时间站立尤其书架前。“这些传感器喷涌关闭,这将成倍增长的数据流,”柯伦说。“A NoSQL的键 - 值对的数据库,如Redis的是去是因为它的特殊用途,高性能,轻量化的地方。”
7.深学习
深度学习基于神经网络的一组机器学习技术,仍在发展,但显示出巨大的潜力,解决业务问题霍普金斯说。“深度学习。。。使计算机能够识别的大量非结构化和二进制数据感兴趣的项目,并推断出,而无需特定的模型或编程指令的关系,”他说。
In one example, a deep learning algorithm that examined data from Wikipedia learned on its own that California and Texas are both states in the U.S. “It doesn’t have to be modeled to understand the concept of a state and country, and that’s a big difference between older machine learning and emerging deep learning methods,” Hopkins says.
霍普金斯说:“大数据将利用深度学习等先进的分析技术,处理大量不同的、非结构化的文本,以我们现在才刚刚开始了解的方式提供帮助。”例如,它可以用来识别许多不同类型的数据,比如视频中的形状、颜色和物体,甚至是图像中的猫的存在,就像一个神经网络众所周知,谷歌在2012年做了。“这一概念认知参与,先进的分析和它意味着的东西。。。是未来的一个重要趋势,”霍普金斯说。
8.在内存分析
加快分析加工过程中使用的内存数据库的日益普及和正确的设置是非常有益的拜尔说。事实上,许多企业已经开始利用混合交易/分析处理(HTAP) - 允许交易和分析处理,以驻留在同一个内存数据库。
但是有很多关于HTAP的炒作,企业已经过度使用它了,拜尔说。对于用户需要在一天中多次以相同的方式查看相同数据的系统——数据没有显著变化——在内存中是一种浪费。
虽然你可以用更快的HTAP执行分析,所有的交易都必须驻留在同一个数据库中。问题是,Beyer说,是现在大多数的分析工作是关于把交易从许多不同的系统连接起来。“只是把它全部在一个数据库可以追溯到这个证伪的信念,如果你想使用HTAP为您所有的分析中,它要求所有的交易是在一个地方,”他说。“你仍然需要整合不同的数据。”
此外,将在内存数据库意味着有其他产品上,管理,保护,并找出如何整合和规模。
对于忒,利用星火已经带走了一些冲动的拥抱内存数据库。“如果我们能够解决我们的用例星火基础设施70%和内存系统可以解决100%,我们将在我们的分析云中的70%去了,” Loconzolo说。“所以我们会原型,看它是否已经准备好,并暂停对内存系统内部现在。”
住领先一步
随着围绕大数据和分析的这么多的新趋势,IT组织需要创造条件,允许分析师和数据科学家的实验条件。“你需要一种方法来评估,原型和最终的一些技术融入企业,”柯伦说。
“IT经理和实施者不能用缺乏成熟为借口,停止试验,”拜尔说。起初,只有少数人 - 最熟练的分析师和数据科学家 - 需要实验。然后,那些高级用户和IT部门应该共同确定何时提供新的资源,以组织的其余部分。它应该不一定收服谁想要向前迈进全油门分析师。相反,拜尔说,它需要工作与分析师“把变速油门这些新的高动力工具。”
这个故事,“在大数据分析8个大趋势”最初发表《计算机世界》 。