R数据。5分钟内上桌

信息世界|2019年10月31日

快速查看R数据。在这个5分钟的教程中,表包给出了这个包的速度和功能的示例。

版权©2019足球竞彩网下载

嗨。我是IDG的Sharon Machlis,这里是《用R:数据做更多》的第36集。5分钟后上桌。

数据。table是一个以快速和强大的数据处理和分析能力著称的软件包。支持者说它的语法既简洁又一致。这种语法也与base R或tidyverse稍有不同。

让我们来看看它是如何工作的。

数据表对象是一种数据框架,但具有特殊的特性。有几种创建方法。在这里,我将加载这个包并使用数据导入一个CSV文件,该文件有大约645K行和20多列。表的从文件中读()函数。


可以看到fread()非常快。看看对象的类,mydt既是一个数据框架,又是一个数据表。

您还可以将现有的数据框架转换为数据。使用as.data.table()函数生成的表。我将用base R的read.csv创建一个数据框架,然后进行转换。好吧,让我把复印件处理掉。

让我们看一下mydt的结构:现在我有了一个数据。表。

每个航班有一行信息,如航班日期、出发地信息、目的地信息以及一些时间和延误信息。如果我只想查看从波士顿到旧金山的航班延误情况,该怎么办?

以下是data.table中你想要做的很多事情的基本语法:

Mydt,左括号I, j,右括号

这意味着:从mydt开始,使用I进行子集或重新排序,使用j进行计算,并按by进行排序。

所以。如果我想把原点的数据子集为Logan Airport,也就是BOS,我只需要把origin == BOS放到I部分。

如果我想看从波士顿到旧金山的航班怎么办?我只是加上了第二个条件

我将运行该代码并将其保存到一个名为myresult的新变量中。


为了计算以分钟为单位的平均延迟,我将计算放在j部分。我想要的是ARR_DELAY_NEW列的平均值,它以分钟为单位给出延迟。

我需要na。rm = TRUE删除所有不可用的选项。我来运行一下。

现在我有了所有延误的平均值。

接下来,我想要航空公司的平均延误。对于这个,我使用了by部分。

让我运行这段代码。

嗯。这些航空公司的名字不是很直观。我没有太多的时间去加入表,但很快,所以你可以看到它是多么容易…


我有一个单独的查询表CSV,其中有我要导入的航空公司代码和航空公司名称。这里有一种连接的方法。我将首先为每个表设置连接(和索引)键——OP_UNIQUE_CARRIER用于原始数据和查找表的代码。然后就是查找表,原始数据表中有括号。(

还有其他连接数据的方法,因为时间不够了,我将在以后的视频中探讨。谢谢收看!要了解更多关于R的技巧,请访问go。infoworld。com的“用R做更多的事情”页面
你也可以在YouTube的IDG Tech Talk频道上找到Do More With R播放列表——在那里你可以订阅,这样你就不会错过任何一集了。希望下次再见到你!
受欢迎的
来自IDG.tv的特色视频