2014-06-05 66 views
0

簡單的問題語料庫中的每個文件計算行數...給出例如:如何作爲R

data("crude") 

這與20個文本文檔的文集,我怎麼是這樣的:

1 4 
2 6 
3 5 
4 3 
etc... 

其中第二列是文集中「原始」文檔中每個文檔的行數?甚至可以使用行號的矢量。

NROW/nrow似乎不起作用。

感謝您的期待!

+0

您確定要查找每個文檔中的行嗎?因爲這個文檔包含純文本...檢查'粗糙[[1]]'...它不再是數據幀或矢量格式 – vrajs5

+0

Hrmm ...所以當它被放入一個語料庫的時候已經太晚了? –

回答

4

嗨,你可以指望換行(LF)與

library(stringr) 
str_count(string = crude[[1]], pattern = "\\n") 
# [1] 11 

crude[[1]]在我的電腦上的12行,所以對於所有的語料庫,你可以這樣做:

sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1) 
+0

是的。謝謝! –

0

除了行,如果你的實際數據是data.frame然後你可以找出項目的數量。選中此項

data = data.frame(x=1:5,y=1:5,z=1:5) 
corp = Corpus(DataframeSource(data)) 
corp[[1]] 
#Output 
1 
1 
1 

lapply(corp,length) 
#Output 
$`1` 
[1] 3 

$`2` 
[1] 3 

$`3` 
[1] 3 

$`4` 
[1] 3 

$`5` 
[1] 3