簡單的問題語料庫中的每個文件計算行數...給出例如:如何作爲R
data("crude")
這與20個文本文檔的文集,我怎麼是這樣的:
1 4
2 6
3 5
4 3
etc...
其中第二列是文集中「原始」文檔中每個文檔的行數?甚至可以使用行號的矢量。
NROW/nrow似乎不起作用。
感謝您的期待!
簡單的問題語料庫中的每個文件計算行數...給出例如:如何作爲R
data("crude")
這與20個文本文檔的文集,我怎麼是這樣的:
1 4
2 6
3 5
4 3
etc...
其中第二列是文集中「原始」文檔中每個文檔的行數?甚至可以使用行號的矢量。
NROW/nrow似乎不起作用。
感謝您的期待!
嗨,你可以指望換行(LF)與
library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11
crude[[1]]
在我的電腦上的12行,所以對於所有的語料庫,你可以這樣做:
sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)
是的。謝謝! –
除了行,如果你的實際數據是data.frame然後你可以找出項目的數量。選中此項
data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]]
#Output
1
1
1
lapply(corp,length)
#Output
$`1`
[1] 3
$`2`
[1] 3
$`3`
[1] 3
$`4`
[1] 3
$`5`
[1] 3
您確定要查找每個文檔中的行嗎?因爲這個文檔包含純文本...檢查'粗糙[[1]]'...它不再是數據幀或矢量格式 – vrajs5
Hrmm ...所以當它被放入一個語料庫的時候已經太晚了? –