2014-03-12 29 views
1

我有一堆html文檔10-15,我必須在gensim中應用LDA算法 我被困在創建語料庫,因爲我不明白我是如何設計集合的語料庫的html文件。網站上的例子顯示了它們在維基百科壓縮文件上的創建.xml.bzLDA爲基因主義的Html文檔

任何人都請指導我如何在一堆html文檔上應用LDA。 在此先感謝

回答

1

查看HTML處理庫,如lxmlbeautifulsoup

對於更高級別的處理(去除樣板,從HTML中提取純文本),請參閱Honza Pomikalek的jusText包。

一旦您有純文本文檔,您可以按照gensim's tutorials繼續。