这本由供应商编写的技术入门读物由Network World编辑,以消除产品促销,但读者应该注意,它可能足球竞猜app软件会支持提交者的方法。
"大数据是当今的流行词,学习管理它并从中提取价值是各行各业的高管们最关心的问题。大数据热潮的一个重要原因是,企业数据管理理念的转变。
以前,公司只收集必要的数据,以提出和回答特定的问题。今天,组织的运作理念是,无论数据来自哪里,都应该保留所有数据,因为你永远不知道什么时候会需要它,也不知道会出现什么问题。电脑硬件和网络设备价格的大幅下跌助长了这种数据存储趋势,这使得企业能够以更实惠的价格持有更多数据。
在图片:“大数据的人性化”
指南:获得Hadoop认证…快
那么,一家公司如何开始处理如此庞大的数据呢?Hadoop。建筑师道格·卡廷,他命名Hadoop在他儿子的黄色玩具大象之后,他在Apache许可下创建了这个软件框架。简单地说,就是这样开源为组织存储和处理大量数据而设计的软件。
而且,在一个新创建的571个网站的世界里,超过10万条推文被生成,超过200万个谷歌查询被进行一天中的每一分钟在美国,大数据管理势在必行。Hadoop解决了这一需求,为公司提供了存储和理解解决业务问题所需的大量数据的能力。
Hadoop被设计为在计算机集群上运行,这使得使用商用硬件和跨机器分配工作成为可能,以实现大规模的可伸缩性。正是这种分布式特性使得Hadoop能够轻松处理和存储如此大量的数据——而且随着需求的增加,它的扩展成本更低,也更容易。
大多数公司将Hadoop系统用作数据精炼厂——接收大量数据,将其处理成可管理的、更有意义的块,然后提出数据问题,以收集有用的见解。一旦有了Hadoop集群,就该开始整个处理了MapReduce,它将数据转换为相同的格式(元组),并将所有重新格式化的数据合并为更小的集,以便更容易地使用、进一步处理和分析。
Hadoop的缺点
不幸的是,就像生活中的所有事情一样,Hadoop并不是完美的。公司遇到的主要问题之一是在当前基础架构中采用Hadoop。
例如,当大多数开源驱动程序在没有完全ODBC规范支持的情况下编写时,企业如何从他们的Hadoop精炼厂访问数据?如果没有对ODBC核心功能的全面支持,企业将很难协调他们的BI套件与Hadoop,并被迫承担专门分析Hadoop数据的特殊项目。之所以会出现这种情况,是因为Hadoop目前最大的限制是它不适合现有的企业数据分析和可视化工具生态系统。
简而言之,企业不具备在Hadoop平台上连接和分析数据所需的技术,这是一个必须克服的巨大障碍,企业才能真正获得Hadoop提供的全部好处。
为了实现这一点,公司需要快速的、符合odbc的连接,它们可以利用它们的BI套件。由于ODBC是几乎所有主要BI套件的首选标准,因此它是解锁这些套件的Hadoop数据可视化和分析的关键应用程序.Hadoop驱动程序的开发已经在进行中,一些知名的供应商提供了工具和方法,将减少的数据转移到传统仓库,连接到当前存在的分析工具生态系统。
由于需要容纳越来越多的数据,Hadoop的出现为连接和分析数据创造了一个全新的市场。这是一个与Hadoop相关的领域,但仍有巨大的潜力。如何访问数据并将其转换为易于分析工具读取的形式?这是该领域的公司面临并努力回答的问题。
但是,在考虑转向hadoop风格的数据精炼厂时,还需要考虑另一个“房间里的大象”:人才。一旦公司连接起来,他们的Hadoop集群被集成到现有的业务应用程序中,你就需要人才来理解这一切。Hadoop集群设置101和MapReduce作业101并不是大多数主要大学计算机科学课程的一部分。
由于技术部门已经开始意识到人才的缺乏,他们做出了相应的回应:通过培养数据科学家.这些科学家通常是计算机科学家和数学家的结合体,他们被视为“数据低语者”,总是知道向数据询问什么,以便了解影响公司的决策。
随着对这些工作的需求增长,大学水平将提高对这一领域的熟练程度,我们将看到所有行业的数据洞察力和创新的激增。在此之前,Hadoop的全部好处根本无法实现。
Hadoop的商业价值
尽管存在缺点,但Hadoop确实提供了巨大的商业价值潜力。随着大数据挖掘的深入,越来越多的公司将寻求将Hadoop与现有应用程序集成。事实上,不管您是否知道,Hadoop可能已经影响到您的日常生活。
今年六月,安篇文章中《华尔街日报》据报道,Mac用户比PC用户更有可能在酒店房间上花更多的钱,这引起了巨大的轰动。有鉴于此,Orbitz的搜索将Mac用户推向了价格更高的房间。
这一数据是基于收集到的大量Mac用户行为信息(750tb的非结构化数据,根据该)是一个很好的例子,说明公司如何使用Hadoop创建和存储大型非结构化数据数据库,并通过数据精炼厂分析这些数据,通过这些分析做出良好的业务决策。
在这种情况下,如果Orbitz能够将正确的酒店卖给正确的客户,从而获得积极的旅行体验,那么Orbitz就会赢。通过向Mac用户提供价格更高的酒店,该公司希望通过一段时间以来收集和分析的大量数据来推动业务发展。
另一个例子是,雪佛龙正在利用大数据分析技术从钻井生产中获得更多的石油。传感器技术已经取得了很大的进步,使勘探船能够获得更高分辨率的海底扫描图像。
石油巨头获取大数据的最新机会是汇编和减少来自所有不同船只的扫描数据,以获得更完整的最佳钻井地点的视图。数据科学家能够使用像Hadoop这样的系统来快速存储和减少这些数据,这意味着雪佛龙和其他石油公司使用这种技术可以比以前更快地将更多的石油投入市场。除了寻找新的油田,雪佛龙还分析了现有石油平台的数据,以获得最有效的生产,节省了数百万美元的运营成本。
发展趋势
随着我们对大数据世界的深入研究,大数据使用所带来的趋势也影响着Hadoop。这些功能包括处理来自混合数据源的大量信息,在一个空间中同时处理多个特性,并将它们合并成可管理的内容。
如前所述,Hadoop允许公司捕获所有可用数据并保存它以回答未来可能出现的问题。当这些问题被识别出来后,公司就可以减少现有数据,从而既能提出这些问题,又能有效地回答它们。这一领域的主要参与者正在推动一种方法,即你可以将简化后的数据转移到数据仓库,并在那里提出问题。这将允许您利用现有的数据仓库,并将Hadoop系统中的所有精炼数据存储在一个中心位置,便于组织成员访问。鉴于此,我们很可能会看到以这种管道格式将Hadoop与现有的数据仓库和分析基础设施配对的趋势。
但是Hadoop的未来已经超越了数据仓库。大数据的三大V——容量、速度和多样性——是去年的问题。这三个V都是我们一直在努力解决的问题,但它们只是大数据的起点,而不是终点。
随着技术的发展,我们将继续看到快速采用,不同数据的配对将给我们带来我们从未想过的结论。这将为大数据的三个I铺平道路:智能、洞察力和创新。
随着我们建立更好的系统,这些系统本身将拥有智能,因为机器学习将帮助我们将看似无关的数据关联起来,以获得新的见解和结论,我们可以利用这些见解和结论,对我们的业务、我们的生活和我们的星球做出更好的决定。这些见解将导致更多的技术创新,从而重新开始这一过程。我们正处于大数据时代的初期,未来确实是光明的。
那么我们该怎么办呢?Hadoop,以其目前的形式,提供了巨大的前景,但仍然缺少一些阻碍它充分发挥其潜力的组件。这一承诺是一个框架,允许公司不仅存储大量数据,还可以处理、访问和分析数据,所有这些都以可承受的价格。一旦更有效的连接可用,并采取措施缓解人才短缺,就不知道企业将如何利用这只“黄大象”做出更明智的商业决策。
杰西·戴维斯(Jesse Davis)是Progress DataDirect的研发主管。