2013-10-28 32 views
1

感謝您花時間看這個問題。我最近從網上刮下了一些文本,並將輸出保存爲約300頁的一個.txt文件。我正在嘗試使用LDA來構建主題,並且熟悉它的技術方面。潛在Dirichlet分配(LDA)的文檔數

但是,我的問題是LDA使用一個文件還是多個文件是重要的(即,如果我正在檢查200封電子郵件,是否需要標記化,刪除停用詞和檢查,然後保存大文件並保存每個電子郵件作爲單獨的.txt文件在實施LDA之前還是可以在一個文件中完成?

我現在面臨的問題是如果我要中斷文檔的預處理所有的東西都變成了單獨的.txt文件,任何建議?非常感謝。

回答

2

這是一個編碼網站,既然你沒有任何代碼在你的問題,你真的不是問一個適合這個網站的問題。那可能爲什麼你到現在還沒有任何答案。也就是說,您可以將單個文本文件輸入R,然後預處理該文本文件中的每個文檔並生成主題模型。我已經嘗試過兩種方式,一個文檔包含大量文檔,另一個文檔包含許多小文件。我發現處理速度的差異非常小。

1

嗯,這很重要,因爲LDA的想法是確定文檔主題和主題詞分佈。因此它違背了查找主題詞分佈概率的整個概念,這實質上告訴我們詞w由主題t產生的概率。

如果我們只有一個文檔,那麼主題之間就沒有區別,因爲每個詞都會出現在同一個文檔中。

相關問題