了解紧缩有R大数据

使用开源R编写做大型数据集的统计计算和图形上手

肖像历史

几年前,我是CTO,并在医疗实践管理软件领域启动的联合创始人。其中一个我们试图解决的问题是访问日程安排可以办公如何优化医疗大家的时间。很多时候,办公室访问安排,以优化医生的时间,患者等待时间太长的方式在过度拥挤的候车室在公司的人咳嗽传染病他们的肺部。

我的一位联合创始人,某医院医务主任,有可能预测基于对访问的原因办公室访问所需要的长度的多元线性模型,病人是否需要一个翻译,两个医生的历史平均访问长度和病人,以及其他可能的相关因素。一个我需要建立子系统是每月回归任务来更新所有系数在基于历史数据的模型。

探索许多选项后,我选择实现此片在R,服用的各种统计(线性和非线性建模,传统的统计测试,时间序列分析,分类,聚类)和R系统实现的图形技术的优点。

其中一个吸引我的东西的是将R脚本语言,这使得它易于保存和重新运行分析,对更新的数据集;另一种吸引力是R和C ++集成的能力。这个项目的一个关键的好处是事实,R,不像Excel和其他GUI分析程序,是完全可审计。

可惜的是,在启动花光了钱后没多久,我实现了一个验证的概念Web应用程序,至少部分原因是因为我们的第一个客户的医院不得不宣告第7章破产。尽管如此,我继续看好的统计分析和数据科学R上。

必不可少ř脚本

计算机世界的沙龙马克利斯写道:一个优秀组的初级教程的R上的商业智能在2013年这将是愚蠢的,我在这里重塑的六篇文章,可以随意去阅读他们回来。该TL; DR版本如下。

通过安装启动[RRStudio在桌面上。两者都是免费的。RStudio是可选的,但我喜欢它,你可能会得。有半打其它的R IDE和一些[R支持十几编辑,但不要陷入疯狂的尝试他们所有。

尝试从命令壳(图1)时,R控制台(图2),和RStudio(图3)运行v。熟悉一些将R教程和演示。

中的R一击壳运行

图1中的R一击壳运行,使用提供glm.vr线性回归演示。

[R控制台

图2. R控制台,R演示的浮动列表和石英图形窗口中。R图形演示运行。注意< -是正常的赋值运算符。

RStudio

图3. RStudio有四个窗口(所有,但编辑在这里显示),并在每个窗口多个标签。从R站点的示例代码运行。注意在右上方,这是相当方便的数据显示。

R的功率由图3中的看似简单的呼叫所示做统计分析。例如,

FM1 < - LM(Y〜X,数据=虚设,重量= 1 / W ^ 2)
摘要(FM1)

这是说“找到最好的拟合系数,拟合值,并为线性模型,其中残差ÿ有变化X对所提供的数据和权重向量。将它们保存在对象FM1然后总结的结果“。早些时候我们已经定义了以下这个环节:

瓦特< - 1 + SQRT(X)/ 2

读这段代码很简单。写作需要一点研究。但不生硬,有大量的免费帮助中获得,更不用说几十本书。

除了在网络上和向R控制台和RStudio帮助菜单项可将R的帮助下,你可以从R命令行帮助。例如:

?functionName
帮助(functionName)
示例(functionName)
ARGS(functionName)
help.search(“搜索词”)
??(“我的搜索词”)

为了得到数据转换成R,要么使用它的样本数据,由上市数据()功能,或从文件中加载:

MYDATA < - read.csv( “FILENAME.TXT”)

R是极其可扩展的。该图书馆()要求()功能负荷并附加额外添加的包;要求()是专为其他函数中使用。许多附加软件包和将R分布居住在CRAN,全球综合R归档网络。其他两个共同ř档案是Omegahat和Bioconductor的。额外的软件包,住在R-伪造。

在R安装过程中复制了基本的软件包,并从CRAN推荐的包到本地库目录,这在Mac上目前是/Library/Frameworks/R.framework/Versions/3.1/Resources/library/。运行将R图书馆()不带任何参数的命令将列出本地包和库的位置。RStudio也将产生正确的图书馆()命令当你在软件包选项卡中勾选安装对勾安装包上市。命令帮助(包=的packageName)将在指定的包显示的功能。

有R封装并起到负载数据从任何合理源,不仅CSV文件。除了比其它的逗号分隔符的明显情况下,所使用的处理函数read.table()功能,您可以复制和粘贴的数据表,读取Excel文件,连接Excel以R,在SAS和SPSS数据,以及访问数据库,Salesforce的,和RESTful接口带来的。见,例如,国外包。

你并不真的需要学习的标准数据导入的语法,作为RStudio工具|导入数据集菜单项将帮助您生成正确的命令,以交互方式看,从文本文件或URL中的数据,并根据您所看到的下拉列表中设置正确的转换选项。

你可以看到一个按名称目前可用的软件包列表在CRAN;这份名单是不是下载到桌面默认推荐的软件包列表更加广泛。从默认档案的一个安装包,使用install.packages功能:

install.packages( “GGPLOT2”)

注意GGPLOT2是具有比标准更多的选择流行的先进图形包图像包。尽管如此,图像可以做很多事情。除了图形在图2和图3,考虑图4和5。

r光圈散点图

图4.埃德加安德森的虹膜数据是股票R数据集,并且该组散点图,通过所产生的图像演示。

[R地形图

图5.该地形Maunga Whau的地图是从库存数据和所产生的图像演示。

R可以在图形和统计分析方面做更多的工作。务必阅读莎朗·马克利斯的教程并按照与她的链接到其他信息。在这一点上,我想我的讨论扩大到了如何分析R.大数据

中的R云

当R程序员谈“大数据”,他们不这样做,通过Hadoop的推移一定意味着数据。他们一般用“大”到无法在内存中分析平均数据。

事实是,你可以很容易地在台式机或笔记本电脑获得16GB的RAM。中的R 16GB的RAM运行可以分析数百万行数据的,没有问题。自天时代已经改变了不少当一百万行的数据库表被认为是很大的。

其中的第一个步骤时,他们的程序需要更多的RAM,许多开发商采取的是一个更大的机器上运行它。您可以在服务器上运行R等一个共同的4U的英特尔服务器可容纳的RAM 2TB。当然,霸占整个2TB服务器一个人[R实例可能是有点浪费。所以,人们跑,只要他们需要,他们的服务器硬件上运行的虚拟机,或者在他们的服务器硬件上运行RStudio服务器的喜欢大云实例。

RStudio Server有免费版和专业版。两者都有个别分析师相同的功能,但专业版提供了更多规模的方式:授权和安全性,管理的可视性,性能优化,支持和商业许可。据RStudio的罗杰·奥伯格,公司的意图是创建付费功能只针对个人。

RStudio服务器Pro集成了几大数据系统。例如,当我回顾IBM Bluemix的PaaS,我注意到,R和RStudio是IBM的DashDB服务(图6)的一部分。事实上,这是RStudio服务器上Bluemix和SoftLayer的专业的安装,根据奥伯格和RStudio的Tareef Kawaf。

[R Bluemix

图6. IBM Bluemix文档吹捧到针对DashDB内存数据库运行R.脚本的能力。

有针对大数据运行v一个额外的策略:关闭只是你需要分析的数据。在MapReduce的,Hadoop的,星火,和风暴的精神,你想,你流这使内存分析听话的缩减数据集合簸数据。要使用Kawaf的例子,你可能有数据,但需要“只有” 5列和20万行的100TB,减少数据的区区几百兆。

12 第1页
页面1的2
IT薪资调查:结果是