2010-01-28 60 views
0

我想從html文件中提取文本以進行索引,並儘可能快地完成。我不想從頭開始創造一些東西,而是希望看到我能爲自己找到多少。索引html的文本內容

目前我只是輸出html2text,它的工作原理,但是在python和試圖美化文本之間,我相信速度可以提高。

因此,在Linux/unix優先的情況下,哪種(c/C++)庫最適合這種類型的任務?

+1

dupe http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser和其他人(只是搜索!!) – 2010-01-28 06:49:40

+0

我並不完全尋找一個解析器。這與我想要的一樣低級。我正在尋找從HTML中提取文本的最簡單最快捷的方法。 – Named 2010-01-28 07:18:04

回答

2

要提取文本,您可以使用HTML解析器,如htmlcxxlibxml。您也可以在tidying up HTML之後使用任何XML庫。要編制文本索引,您可以使用CLucene

+0

libxml會做。 Xapian是這種情況下的索引器。 – Named 2010-01-28 07:14:09