初學R和文本挖掘。目前使用tm包。R文本挖掘 - 一個接一個合併段落無句混合起來
我想將兩個不同文檔的文本一起添加到語料庫中。 當我使用像
c(corpus.doc[[1]],corpus.doc[[2]])
聲明或粘貼聲明
paste(corpus.doc[[1]],corpus.doc[[2]])
我得到的文本合併的每一行的結果。
例如: 如果
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
我得到這些語句是一樣的東西
He visits very often She also
and stays
sometimes more
如何防止這一點,而不是讓
He visits very often
and
sometimes more
She also
stays
還是有在R tm軟件包中合併文檔的簡單方法是什麼?先謝謝你!
附加信息
當我使用
一個< - C(corpus.doc [[1]],corpus.doc [[2]],遞歸= TRUE)
我得到一個成爲一個語料庫與兩個文件,所以這些文件中的每個文本仍然沒有合併。我希望
a[[1]]
給出了corpus.doc [[1]]和corpus.doc [[2]]的組合文本。
str(corpus.doc)
顯示這樣的事情
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
它不斷回事...
爲什麼不使用文本編輯器將一個文檔的文本複製並粘貼到另一個文檔中?如果您的示例中的兩個文檔是「PlainTextDocument」和「TextDocument」,那麼在文本編輯器中編輯它們應該沒有問題。然後使用該新文檔作爲tm包的輸入。不是一個純粹的R解決方案,但如果你只有少量的文件,則很快。 – Ben 2012-01-27 20:40:31
是的......我知道:)只有7000多個這樣的文件(他們是語音文件),我想根據他們是否由同一位發言者來組合文本。 – appletree 2012-01-27 21:29:13