2012-08-28 66 views
1

我參加this Kaggle competition,我不知道是否有人在河如何避免R中的LSA包textmatrix功能錯誤

基本上與textmatrix功能的熟悉從LSA packagetextmatrix函數接受一個目錄作爲參數,它將使用指定目錄內的所有文本文件創建一個文本矩陣。

不幸的是,文本文件函數在遇到包含零項的文本文件時會發出錯誤(例如,如果您使用停用詞進行篩選,則會發生此錯誤)。

有誰知道一個簡單的方法有textmatrix 忽略文件結束了零項條款?或者用相對快速的方法來識別和刪除這些文件?

TIA!

回答

1

我不知道如何讓它忽略空文件。我使用的一種解決方法是將一個尚未包含在語料庫中的單詞添加到每個文件中。

優點:

  • 每個文件都會有至少一個字,讓textmatrix不會失敗
  • 相同的單詞中的每個文件都不會影響單個文件的
  • 你知道的相關性根據文本矩陣的單詞數量比原始文檔中的單詞數量多一個

缺點:

  • 每個文件都變得有點類似於所有其他文件,因爲它們都共享一個單詞。

(注:可能有缺點,我沒有想到)