您可能还想在数据库中而不是应用程序中执行一些分析。IBM在提供示例以及R源代码方面做得很好。考虑图7中所示的分析。
将数据从数据库中流到R中会花费大量时间。如果消除大部分网络流,就可以大大减少分析所需的时间。您会注意到数据库内回归分析的时间是2.7秒。在应用程序中完成同样的任务需要1.47分钟——比原来的时间长30倍。计算得到的回归系数完全相同。唯一改变的是,一种分析在数据驻留的地方进行回归,而另一种分析首先将数据从数据库流到R应用程序。
IBM实现并不是唯一的;我碰巧有一个Bluemix账户。Vertica (HP)、Greenplum (Pivotal)、Oracle和Teradata都有R包。然而,我不确定其他人在数据库内分析的方向上走了多远。
顺便说一下,我惊喜地发现,在浏览器中运行RStudio Server Pro就像在我的桌面上运行RStudio一样——做得很好。
闪亮和R减价
当然,开发人员和分析人员从来没有真正摆脱编写代码和确定结果的简单过程。高层管理人员想要月度报告,中层管理人员想要玩弄数据,却不知道背后隐藏着什么。输入闪亮
和rmarkdown
从RStudio两个R包分别Web应用程序和报告。
图8示出在RStudio运行一个简单的闪亮应用程序。该代码是从教训2闪亮的教程。
你可以用闪亮的建立互动和“反应” Web应用程序,与小部件对应的HTML控件元素如输入
领域。通过“反应,” RStudio意味着,当值的变化,该变化值依赖的所有值被重新计算,因为你会从一个电子表格程序的期望。图9示出了一个交互式闪亮应用具有两个窗口小部件用于输入和美国人口普查数据的用于输出的阴影地区分布图。
图9中的交互式应用程序闪亮的是你如何让中层管理人员没有他们不必知道在幕后有什么用数据起到一个很好的例子。
为了限制什么是重新计算时输入的变化,反应
包装器函数缓存它的值,只重新计算那些无效的值。我就不给你们举个例子了,尽管你们会发现一个很亮的例子第六课。闪亮的应用程序可以运行在自己的硬件上,也可以发布到shinyapps.io服务器。对于一个简单的例子,看看图10。
闪亮的应用程序应该满足中层管理人员的需求。那么高层管理人员呢?
如果你是GitHub的用户,或者在过去的10年里一直关注着Web和开发人员的环境,你就会知道减价的语言用于生成HTML和其他基于标记语言的格式化文档。RStudio包含了一个Markdown实现,并扩展了它以包含嵌入的R代码块以及ř减价包。您还可以使用Shiny创建交互式R Markdown文档,并将它们发布到您自己的Shiny服务器上shinyapps.io。例如,请参见图11。
R的动力
正如我们看到的,R是数据科学家和统计学家一个有用的工具,它的有些不规范的脚本语言将是程序员感兴趣的,否则谁可能采取的Python(与NumPy的,熊猫,和StatsModels);SQL(用于在数据库中保存的数据);或SAS(及其衍生物GUI,JMP),用于他们的数据分析。相比于Excel中,R有相当多的统计和制图能力,特别是如果你的特殊需要添加软件包,并且它更可审计。所以可以非常容易验证的R脚本不是一个完整的公式的电子表格。
通过增加RStudio作为一个IDE,开发R应用可以说是相当高效。RStudio服务器允许公司利用巨大的RAM和大型服务器硬件的许多可用的处理器,闪亮变成R导入Web应用服务器,和R降价允许你用R进行报告。
另一方面,R的强大功能和大量可用的R包可能造成相当可怕的学习曲线。在学习和使用R时,拥有一些统计学背景会有很大帮助,但对所有数据科学都是如此。对于任何其他具有许多可用库的编程语言来说,学习R的最佳策略是一步一步来。
这篇文章《学会用R处理大数据》最初发表于信息世界 。