索引html的文本內容

我想從html文件中提取文本以進行索引，並儘可能快地完成。我不想從頭開始創造一些東西，而是希望看到我能爲自己找到多少。索引html的文本內容

目前我只是輸出html2text，它的工作原理，但是在python和試圖美化文本之間，我相信速度可以提高。

因此，在Linux/unix優先的情況下，哪種（c/C++）庫最適合這種類型的任務？

2010-01-28 Named

dupe http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser和其他人（只是搜索!!） – 2010-01-28 06:49:40

我並不完全尋找一個解析器。這與我想要的一樣低級。我正在尋找從HTML中提取文本的最簡單最快捷的方法。 – Named 2010-01-28 07:18:04

要提取文本，您可以使用HTML解析器，如htmlcxx或libxml。您也可以在tidying up HTML之後使用任何XML庫。要編制文本索引，您可以使用CLucene。

2010-01-28 06:49:28

libxml會做。 Xapian是這種情況下的索引器。 – Named 2010-01-28 07:14:09

回答