R的初学者指南:把你的数据放入R

在第二部分& acirc;我们的实践guideÂ对于热门数据分析环境,我们提供了一些关于如何以本地和Web上的各种格式导入数据的技巧。

无论它是本地的还是来自Web的,都有几种方法可以将数据放入R中进行进一步的工作。

一旦你安装和配置R键自己的喜好,它的时候开始用它来处理数据。是的,你可以直接键入您的数据为R的交互式控制台。但是,对于任何一种严肃的工作,你更可能是很多已经有数据文件中的某个地方,在本地或网络上。这里有几种方式来获取数据为R为进一步开展工作。

[这个故事是计算机世界“新手指南R.”的一部分要从头开始读,看看引进;有一些网页,该系列中的其他部分的链接。]

样本数据

如果你只是想用一些测试数据玩,看他们如何加载和可以运行哪些基本功能,R的默认安装自带的几个数据集。类型:

数据()

进入R控制台,您将获得预加载数据集的列表。并不是所有的命令都有用(两只海狸的体温序列?),但是这些确实给了你一个尝试分析和绘制命令的机会。一些在线教程使用这些示例集。

一个不太深奥的数据集是mtcars,关于来自汽车发展趋势的各种汽车模型的数据。(我不知道从数据来自哪一年,但考虑到有条目的飒爽除尘器360,我猜他们不是非常近;还有,它比海狸是否有发烧更引人注目一点。)

如果你在控制台输入数据集的名称,你会得到整个数据集的打印输出,像这样:

mtcars

检查数据集有更好的方法,我将在本系列的后面讨论这些方法。而且,R确实有一个print()函数,可以打印更多选项,但是R初学者似乎很少使用它。

现有的本地数据

R具有一个专用于读出用逗号分隔的文件的功能。要导入一个名为本地CSV文件FILENAME.TXT和存储数据到一个R变量命名MYDATA,语法是:

mydata < - read.csv(“filename.txt”)

(旁白:什么是<-你希望看到等号的地方?它是R赋值运算符。我说R的语法有点古怪。关于这一点的更多内容将在关于R语法怪癖的一节中介绍。)

如果您想知道用这个命令创建的是什么类型的对象,那么mydata是一种非常方便的数据类型,称为数据框架——基本上是一个数据表。数据框架由行和列组织,类似于电子表格或数据库表。

该read.csv函数假定你的文件有标题行,所以第1行是每列的名称。如果不是的话,你可以添加标题= FALSE的命令:

mydata < - read.csv(“文件名。txt”,头= FALSE)

在这种情况下,R将读取的第一行作为数据,而不是列标题(和受让人默认列标题名称以后可以进行更改)。

如果您的数据使用另一个字符来分隔字段,而不是使用逗号,那么R也具有更通用的读法。表函数。所以,如果你的分隔符是一个标签,这可以工作:

mydata < - read.table(“文件名。txt”,9 = " \ t”,头= TRUE)

上面的命令还表明文件中有一个header=TRUE的头行。

如果您的分隔符是一个字符,比如|,那么您可以将命令的分隔符部分更改为sep="|"

类别或值?由于R的根是一种统计工具,所以当您导入非数字数据时,R可能会假设字符串是统计因素——比如“差”、“平均”和“好”——或者“成功”和“失败”。

但是你的文本列可能无法类别要组和措施,只是公司或员工的名字。如果你不想被作为因素读你的文字数据,请FALSE添加stringsAsFactor =函数read.table到,像这样:

mydata < - read.table(“文件名。txt", sep="\t", header=TRUE, stringsAsFactor=FALSE)

如果你愿意,R允许你在命令行中使用一系列菜单点击加载数据,而不是“读”数据,只是描述。要做到这一点,去RStudio的右上窗口的工作空间选项卡,找到菜单选项“导入数据集”,然后选择一个本地文本文件或URL。

由于通过单击菜单导入数据,RStudio从单击菜单生成的R命令将出现在控制台中。如果您正在使用该命令进行重要的分析工作,那么您可能希望将该数据读取命令保存到脚本文件中,以便其他人(或者您)能够重现该工作。

下面这段3分钟的YouTube视频是由加州大学洛杉矶分校(UCLA)统计专业的研究生迈尔斯·陈(Miles Chen)录制的,视频展示了RStudio的点按数据导入。

加州大学洛杉矶分校统计专业的研究生Miles Chen展示了一个RStudio点按数据导入。

复制数据片段

如果表中已经有一小部分数据——比如电子表格或Web HTML表——您可以control-C将这些数据复制到Windows剪贴板并导入到R中。

下面的命令处理由标签分隔的标题行剪贴板数据,并将数据存储在数据框(x)中:

x < -阅读。表(file =" clipboard", sep="\t", header=TRUE)

你可以阅读更多有关在使用Windows剪贴板中的R假人网站

在Mac上,管(“pbpaste”)函数将访问数据您复制使用命令C,所以这也将这样做相当于以前的Windows命令:

x <- read.table(管道("pbpaste"), sep="\t")

其他格式

有R包可以从Excel、SPSS、SAS、Stata和各种关系数据库中读取文件。我不关心Excel软件包;它需要Java和Perl,通常我宁愿将电子表格导出到CSV,希望不会遇到微软的特殊字符问题。有关其他格式的更多信息,见UCLA的如何将数据输入到R其中讨论了外国附加软件包导入其他几个统计软件的文件类型。

如果您想尝试与R与数据库连接,有几个专用的软件包,如RPostgreSQLRMySQLRMongoRSQLiteRODBC

(您可以在CRAN网站上可以看到可用R包的完整列表。)

远程数据

从Web访问文件时,read.csv()和read.table()的工作原理与访问本地数据时基本相同。

你想要谷歌电子表格数据在R?您不必像使用CSV那样将电子表格下载到本地系统。相反,在您的谷歌电子表格中——正确地格式化为只有一行作为标题,每行只有一行数据——选择文件> Publish to the Web。(这将使数据公开,尽管只对拥有或偶然发现正确URL的人。小心这个过程,特别是敏感数据。)

选择与您的数据表,然后单击“开始发布”。您应该看到的选项来获得一个链接到已发布的数据框。改变从网页到CSV格式类型和复制的链接。现在你可以用一个命令,如读取这些数据为R:

mydata < - read.csv(“http://bit.ly/10ER84j”)

命令结构是在Web上的任何文件一样。例如,皮尤研究中心关于移动购物数据可作为下载一个CSV文件。你可以存储在这样的变量称为pew_data数据:

pew_data < - read.csv(“http://bit.ly/11I3iuU”)

首先确保下载的文件是r友好的格式是很重要的:换句话说,它最多只有一个头行,后面的每一行都相当于一个数据记录。即使是格式良好的政府数据也可能包含许多后面跟着脚注的空白行——如果您计划对文件运行统计分析函数,那么这不是您希望在R数据表中看到的。

帮助与外部数据

[R爱好者创造的附加软件包,以帮助其他用户下载的数据为R以最简单的。

例如,财务分析软件Quantmod,通过定量软件分析师Jeffrey瑞安开发的,可以很容易地不仅拉和分析股票价格,但绘制它们。

您只需要四行简短的代码就可以安装Quantmod包、加载它、检索公司的股票价格,然后使用条形图函数绘制它们。输入并运行以下在您的R编辑器窗口或控制台的苹果数据:

install.packages(“quantmod”)

库( 'quantmod')

getSymbols(“公司”)

BARCHART(AAPL)

想看看刚刚过去的几个星期?您可以使用这样的命令:

条形图(AAPL,子集='最近14天')

ChartSeries中(Apple,子集= '过去14天')

或抓住一个特定的日期范围是这样的:

柱形图表(apple [' 2013-04-01:: 2013-04-12 '])

Quantmod是一个非常强大的财务分析软件包,你可以在Quantmod网站

有许多其他的包,其中R接口的数据源,如推特用于分析Twitter数据;Quandlrdatamarket分别在Quandl和data Market访问数百万个数据集;和一些谷歌分析,包括rgaRGoogleAnalyticsganalytics

寻找要拉入R的特定类型的数据,但不知道在哪里找到它?你可以尝试搜索QuandlDatamarket,其中数据可以作为R格式,甚至无需安装上述站点特定的软件包下载。

删除不需要的数据

如果你有变量x完成,并希望从工作区中删除,请使用rm()remove函数:

rm (x)

保存您的数据

一旦您读取了数据并按照您想要的方式设置了对象,您就可以通过几种方式保存您的工作。将命令存储在脚本文件中是一个好主意,这样您就可以在需要时重复您的工作。

如何最好地保存您的命令?您可以首先在RStudio脚本编辑器(左上角窗口)中输入它们,而不是直接在交互式控制台中,这样您就可以在完成时保存脚本文件。如果你还没有这样做过,你可以在右上方窗口的history选项卡中找到你输入的所有命令的历史记录;选择你想要的,然后点击“to source”菜单选项,将它们复制到脚本窗口中的文件中保存。

您还可以保存您的整个工作区。当你R中的时候,使用的功能:

保存图片()

它将您的工作空间存储到一个默认名为. rdata的文件中。这将确保您不会丢失所有的工作在电源故障或系统重新启动时,您已经离开。

当您关闭R时,它会询问您是否要保存您的工作区。如果您选择yes,那么下一次启动R时,该工作区将被加载。保存的文件也将命名为. rdata。如果在不同的目录中有不同的项目,每个项目都可以有自己的. rdata工作区文件。

你也可以保存一个单独的R对象,以备以后使用save函数加载:

保存(variablename文件=“filename.rda”)

在任何时间重新加载它:

加载( “filename.rda”)

下一个:在R中进行基本数据分析的简单方法

本文,R的初学者指南:把你的数据放入R,最初发表于Computerworld.com

沙龙Machlis是计算机世界的在线执行编辑。她的电子邮件地址是smachlis@computerworld.com。你可以在推特上关注她@ sharon000, 上脸谱网, 上Google +或订阅她的RSS频道:文章;和博客

阅读更多关于商业智能/分析的内容在Computerworld的商业智能/分析主题中心。

这个故事,“R的初学者指南:把你的数据放入R”最初是由计算机世界

加入对网络世界的社足球竞猜app软件区脸谱网LinkedIn对最重要的话题发表评论。
相关:

版权©2013足球竞彩网下载

IT薪资调查:结果是