学会用R处理大数据

使用开源R编写做大型数据集的统计计算和图形上手

12 第二页
第2页共2页

您可能还想在数据库中而不是应用程序中执行一些分析。IBM在提供示例以及R源代码方面做得很好。考虑图7中所示的分析。

RStudio Bluemix

图7。我们正在看RStudio Server Pro运行在IBM Bluemix dashDB服务。我们运行的样本对数据库中的大型数据集进行了回归。

将数据从数据库中流到R中会花费大量时间。如果消除大部分网络流,就可以大大减少分析所需的时间。您会注意到数据库内回归分析的时间是2.7秒。在应用程序中完成同样的任务需要1.47分钟——比原来的时间长30倍。计算得到的回归系数完全相同。唯一改变的是,一种分析在数据驻留的地方进行回归,而另一种分析首先将数据从数据库流到R应用程序。

IBM实现并不是唯一的;我碰巧有一个Bluemix账户。Vertica (HP)、Greenplum (Pivotal)、Oracle和Teradata都有R包。然而,我不确定其他人在数据库内分析的方向上走了多远。

顺便说一下,我惊喜地发现,在浏览器中运行RStudio Server Pro就像在我的桌面上运行RStudio一样——做得很好。

闪亮和R减价

当然,开发人员和分析人员从来没有真正摆脱编写代码和确定结果的简单过程。高层管理人员想要月度报告,中层管理人员想要玩弄数据,却不知道背后隐藏着什么。输入闪亮rmarkdown从RStudio两个R包分别Web应用程序和报告。

图8示出在RStudio运行一个简单的闪亮应用程序。该代码是从教训2闪亮的教程。

RStudio闪亮的教训

图8.我们看到运行的应用程序有光泽的网页,旁边显示该应用的UI代码RStudio编辑器。闪亮的功能生成HTML。例如,H1( “我的标题”)生成<标题> < / h1 >我的标题

你可以用闪亮的建立互动和“反应” Web应用程序,与小部件对应的HTML控件元素如输入领域。通过“反应,” RStudio意味着,当值的变化,该变化值依赖的所有值被重新计算,因为你会从一个电子表格程序的期望。图9示出了一个交互式闪亮应用具有两个窗口小部件用于输入和美国人口普查数据的用于输出的阴影地区分布图。

RStudio闪亮的教训

图9.美国地图上述变化例如当用户改变输入值呈现。注意readRDS基函数来读取一个序列ř目的,起作用以包括附加的代码,所述renderPlot功能(从闪亮包)来呈现的反应性曲线图,并且do.call用来构造和执行函数调用的基函数。的percent_map函数定义在helpers.R以呈现阴影县地图和州大纲地图。

图9中的交互式应用程序闪亮的是你如何让中层管理人员没有他们不必知道在幕后有什么用数据起到一个很好的例子。

为了限制什么是重新计算时输入的变化,反应包装器函数缓存它的值,只重新计算那些无效的值。我就不给你们举个例子了,尽管你们会发现一个很亮的例子第六课。闪亮的应用程序可以运行在自己的硬件上,也可以发布到shinyapps.io服务器。对于一个简单的例子,看看图10。

闪亮的演示应用程序

图10。在我的本地系统上运行的交互式演示应用程序。你可以自己运行https://mheller.shinyapps.io/shinyapp-demo/

闪亮的应用程序应该满足中层管理人员的需求。那么高层管理人员呢?

如果你是GitHub的用户,或者在过去的10年里一直关注着Web和开发人员的环境,你就会知道减价的语言用于生成HTML和其他基于标记语言的格式化文档。RStudio包含了一个Markdown实现,并扩展了它以包含嵌入的R代码块以及ř减价包。您还可以使用Shiny创建交互式R Markdown文档,并将它们发布到您自己的Shiny服务器上shinyapps.io。例如,请参见图11。

闪亮的互动情节

图11。一个例子的R Markdown使互动。底层代码是一个头块、几行Markdown代码和十几行r代码。参见图12。

图12

图12.忠实的美元爆发在这个例子中使用的数据是从老忠实间歇泉数据内建到R数据集包。

R的动力

正如我们看到的,R是数据科学家和统计学家一个有用的工具,它的有些不规范的脚本语言将是程序员感兴趣的,否则谁可能采取的Python(与NumPy的,熊猫,和StatsModels);SQL(用于在数据库中保存的数据);或SAS(及其衍生物GUI,JMP),用于他们的数据分析。相比于Excel中,R有相当多的统计和制图能力,特别是如果你的特殊需要添加软件包,并且它更可审计。所以可以非常容易验证的R脚本不是一个完整的公式的电子表格。

通过增加RStudio作为一个IDE,开发R应用可以说是相当高效。RStudio服务器允许公司利用巨大的RAM和大型服务器硬件的许多可用的处理器,闪亮变成R导入Web应用服务器,和R降价允许你用R进行报告。

另一方面,R的强大功能和大量可用的R包可能造成相当可怕的学习曲线。在学习和使用R时,拥有一些统计学背景会有很大帮助,但对所有数据科学都是如此。对于任何其他具有许多可用库的编程语言来说,学习R的最佳策略是一步一步来。

这篇文章《学会用R处理大数据》最初发表于信息世界

加入网络世界社区足球竞猜app软件Facebook的LinkedIn对那些顶级心态的话题发表评论。

版权©2015足球竞彩网下载

12 第二页
第2页共2页
工资调查:结果在