LDA爲基因主義的Html文檔

我有一堆html文檔10-15，我必須在gensim中應用LDA算法我被困在創建語料庫，因爲我不明白我是如何設計集合的語料庫的html文件。網站上的例子顯示了它們在維基百科壓縮文件上的創建.xml.bzLDA爲基因主義的Html文檔

任何人都請指導我如何在一堆html文檔上應用LDA。在此先感謝

查看HTML處理庫，如lxml或beautifulsoup。

對於更高級別的處理（去除樣板，從HTML中提取純文本），請參閱Honza Pomikalek的jusText包。

一旦您有純文本文檔，您可以按照gensim's tutorials繼續。

2014-03-18 23:45:01 Radim

回答