您可以使用列名向量进行子集化。我非常喜欢这种方法,而不是那些将列名视为对象名(例如 subset()
)的方法,尤其是在函数、包或应用程序中编程时。
# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[c("A","B","E")]
注意没有逗号(即它不是 df[,c("A","B","C")]
)。那是因为 df[,"A"]
返回一个向量,而不是一个数据框。但 df["A"]
将始终返回一个数据框。
str(df["A"])
## 'data.frame': 1 obs. of 1 variable:
## $ A: int 1
str(df[,"A"]) # vector
## int 1
感谢 David Dorchies 指出 df[,"A"]
返回一个向量而不是 data.frame,并感谢 Antoine Fabri 为我的原始解决方案(下)提出了一个更好的替代方案(上)。
# subset (original solution--not recommended)
df[,c("A","B","E")] # returns a data.frame
df[,"A"] # returns a vector
如果您的 data.frame 名为 df1
,则使用 dplyr 包:
library(dplyr)
df1 %>%
select(A, B, E)
这也可以在没有 %>%
管道的情况下写成:
select(df1, A, B, E)
df1 %>% select(A, B, E) %>% rowMeans(.)
。通过键入 ?magrittr::`%>%`
查看 %>%
管道的文档
这是 subset()
函数的作用:
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4
c("A", "B")
是一个向量,而不是一个列表。
有两个明显的选择:Joshua Ulrich 的 df[,c("A","B","E")]
或
df[,c(1,2,5)]
如在
> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> df
A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
A B E
1 1 3 8
2 2 4 8
仅出于某种原因
df[, (names(df) %in% c("A","B","E"))]
为我工作。所有上述语法都产生了“未定义的列选择”。
其中 df1 是您的原始数据框:
df2 <- subset(df1, select = c(1, 2, 5))
您还可以使用在 R 数据帧上执行选择的 sqldf
包:
df1 <- sqldf("select A, B, E from df")
这给出了一个数据框 df1
作为输出,其列:A、B、E。
您可以使用 with
:
with(df, data.frame(A, B, E))
df<- dplyr::select ( df,A,B,C)
此外,您可以为新创建的数据分配不同的名称
data<- dplyr::select ( df,A,B,C)
[
和子集不可替代:
如果只选择一列,[
会返回一个向量。
df = data.frame(a="a",b="b")
identical(
df[,c("a")],
subset(df,select="a")
)
identical(
df[,c("a","b")],
subset(df,select=c("a","b"))
)
drop=FALSE
,则不会。示例:df[,c("a"),drop=F]
object of type 'closure' is not subsettable
。df
。df
也是 stats 包中的一个函数。-"A"
是语法错误。?Extract
表示,“i
、j
、...
也可以是负整数,表示要从选择中排除的元素/切片。”> df[,c("A")]
[1] 1
。使用subset
没有这个缺点。