問題: 我有一個循環,從網頁下載的句子 - 併爲每個迭代它們添加到越來越多的字符向量。追加txt文件 - 然後閱讀txt文件到語料庫與TM封裝
概念,輸出看起來是這樣的:
myVec
[1] "bla"
[2] "blablabla"
[3] "blabla"
[4] " blablablablabla"
等...
每個數字代表的是我已經下載了一句。對於每次循環,循環都會向該向量附加更多句子。
但不是讓結果進入矢量 - 我想將它保存到不斷增長的txt文件中。原因是我需要下載的數據量很大。所以我需要讓循環運行一段時間(1000次迭代),然後休息一下 - 然後在第二天再次運行它。
我想要txt文件有一些結構 - 以便它仍然可以很容易地按句子拆分。這是因爲我後來想創建一個DTM,每個句子作爲一個單獨的文檔。
所以我需要什麼
1:一種方式來寫,可以在整個環新句子被附加的文件。
2:使用tm包讀取該文件的方法,以便稍後可以根據我已下載的句子創建DTM。
我已經試過:
我已經得到了我想要的是使用write.table()函數最接近的一次。
write.table(MyVec, file = "output.txt",row.names=FALSE, col.names = FALSE, append= TRUE)
這似乎給我哪裏有句通過引號分隔文本: 「喇嘛」 「blablabla」 「布拉布拉」 等等
但我不知道如何利用當用tm將它讀入語料庫時 - 爲了稍後基於句子創建DTM。也許有更好的方法?
我也曾嘗試write()函數:
write(MyVec, file="output.txt",append=TRUE)
這給了我成長的txt文件,但它似乎並沒有分離出的句子。我不知道如何將它讀入語料庫並根據句子創建DTM。
我認爲writeLines() - 但它似乎沒有追加選項 - 無論如何:我不想打破文本的行。我只想分開句子。
爲'write.table'設置'quote = FALSE',你將擺脫引號。 – Val