DIY与完全集成的Hadoop - 什么是最适合您的组织?

亲自构建与一个预集成的,出的现成的平台去的权衡

Hadoop的/肖像历史

这本由供应商撰写的技术入门书是由Network World编辑的,目的是消除产品推广,但读者应该注意,足球竞猜app软件它可能更倾向于提交者的方式。

你不必看远,看的令人惊奇的事情是企业与大数据技术,这样做的:过去的交易,社交媒体和其他来源提取信息来开发他们的客户的360度全景。分析的过程成千上万查明故障和效率低下的原因。将不同的数据源到了前所未有的认可揪出连接在一起。

所有这些创新,更多的,是可能的时候,你可以从整个组织收集信息和数据的科学应用到它。但是,如果你已准备好进行跳跃到大数据,你面对严峻的选择:你应该使用预集成的“乱用”的平台?还是应该下载开源的Hadoop软件,并建立自己的?

哪一条路径是适合您的组织?让我们来仔细看看。

组装拼图

首先,要知道,如果你去DIY,还有你需要与股票Hadoop的集成许多不同的组件:蜂巢,纱,MapReduce的,等等。(一个领先的Hadoop发行版包括23个不同的软件包。)你需要弄清楚哪些组件,以及软件版本,这样可以为您的部署,以及如何使他们一起工作,并与您的环境。

这不是一次性的工作;所有这些工具都在不断更新,因此您需要弄清楚如何持续地支持和维护您的解决方案。由于这些原因,大多数构建自己平台的组织使用第三方专业服务来处理大部分繁重的工作。

那么,为什么要选择DIY之路呢?您最终会得到一个精确地针对您想要使用它做什么的解决方案。您的IT部门保留了对平台流程和功能的完全控制。如果您正在研究一个相对较小的项目(为特定目的而设计,具有特定的数据选择和接口),那么这可能是一个很好的选择。然而,广泛定制也有一个不利的方面:如果您希望在将来扩展您的平台,它可能没有为多个用例设计的现成解决方案那么灵活。

权衡成本

这是很有诱惑力的假设,建立自己的平台,利用现成的,现成的硬件和开源软件,天生就比一个预集成解决方案更便宜。这些数字,但是,不一定证实了这一点。

集成平台的标价可能更高,但总体拥有成本可能与DIY集群相当,甚至更低。考虑一下:任何大数据平台都需要相同的计算能力、存储和基础设施,因此硬件成本可能相当。但是,如果你自己动手,你应该在软件、安装和第三方专业服务的持续支持上花费几十万美元,所有这些都包含在预先集成的解决方案中。

然而,如果考虑使用云计算,成本差异可能会变得非常明显。各种预先集成的解决方案现在都可以作为基于云的服务(甚至是混合服务,其中一些数据仍保留在本地)使用。该模型允许组织以更低的前期成本、比构建自己的解决方案更快的速度开始采用大数据,甚至比部署全面的预集成解决方案更快。

收集和使用的数据是不一样的东西

重要的是要记住,数据科学需要不止在一个地方聚集的数据是非常重要的。有收集数据,并能够使用它之间的许多步骤。

取提取从非结构化数据,例如电子邮件的结构化信息的一个常见的例子。下面是一个可以工作的一种方法:首先,成千上万的电子邮件中基本的HTML到达。要提取有意义的洞察,你现在需要解析的文件,清理它们,提取条件,定义一个有意义的词汇,等等。

开箱即用的解决方案通常提供预先构建的工具来管理作业调度工作流和数据收集,从而使您的数据可以随时进行分析。更通用的预构建平台也可能是灵活的——允许开发人员使用他们选择的语言编写程序,并且确信他们可以处理系统中的任何数据。因此,围绕所收集的数据创建和持续更新工作流应该很容易。

如果你去DIY,确保你的基础架构可以处理所有围绕数据收集工作流程的,或者说,它愿意支持他们。而且,一定要设计自定义解决方案是尽可能开放,使你不再受限于未来的选项。

从实验室走向生产

一个在DIY项目的风险较大的正值当是时候从实验室转移到生产。下面是可能发生的事情:你建立了一个示范的Hadoop环境,展现你可以用它做什么。每个人都留下了深刻印象,你会得到绿灯前进。但是,当它的时间把它投入生产,你面对它的一些不舒服的问题:如何将这种融入我们的业务流程?你将如何安全地访问?在休息加密的数据?这将如何扎入我们的身份基础设施?

企业IT花费很多事情是理所当然的,任何数据库平台,将已加密存储,使用Active Directory,严格的审核日志集成,定义细粒度的访问控制策略的手段。如果您的解决方案还没有检查了所有这些箱子,没有一个在有必要的实验室,它不会靠近你的生产网络的任何地方。

不幸的是,stock Hadoop并不能很好地回答这些问题。即使是基本的加密和AD集成也很复杂,而且默认的访问控制机制是粗粒度的。没有一种机制可以为不同用户提供对相同数据的不同访问级别——例如,如果您的平台为需要访问完整记录的客户服务代理和仅被授权查看未识别信息的分析师提供服务。

任何可生产的大数据平台都需要所有这些功能。因此,这是一个在定制和灵活性之间权衡的问题。如果你自己动手做,你会需要大量的集成工作。但是最终您将得到一个专门为现有的安全性、身份验证和策略基础设施构建的解决方案。

如果您使用开箱即用的解决方案,那么您将获得一个从头构建的平台,以满足企业安全和隐私需求,包括基于策略的访问控制、加密和开箱即用的审计。有些甚至可以动态地为不同的用户生成不同的数据视图,例如向某些用户显示记录的完整视图,向其他用户显示未识别的版本。要知道,您可能必须根据预先构建的平台调整一些内部流程。

最终,你选择的大数据路径归结为了解您的组织。也许你有需求的定制解决方案的独特需求。也许你正在处理一组有限的问题,或者有现成的数据收集流程和基础设施,你不想改变。如果是这样,正是针对您的需求定制的大数据平台可能是最合适的。但如果不是这种情况,如果大数据只是一个工具来支持你的核心业务战略 - 一个预集成的企业级解决方案可以提供一个相对快速,简单的方式开始解锁你的数据的价值。

洛伦特负责推动在PHEMI系统的产品愿景和战略 - 基于BC-温哥华,启动集中存储,管理和结构化和非结构化数据的管理。他与领先的医疗保健科研机构,医疗保健机构和支付机构紧密合作,帮助他们定义和实现自己的大数据战略。

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对最重要的话题发表评论。

版权所有©2016足球竞彩网下载

工资调查:结果是