我想實現一個搜索引擎,它應該抓取一組網站,從網頁中提取特定的信息並創建該特定信息的全文索引。Xapian的履帶/解析器
在我看來,Xapian可能是搜索引擎庫的不錯選擇。
爬蟲/解析器與Xapian集成有哪些選項?
Solr是否比Xapian更好地選擇與開源搜索器/解析器集成?
我想實現一個搜索引擎,它應該抓取一組網站,從網頁中提取特定的信息並創建該特定信息的全文索引。Xapian的履帶/解析器
在我看來,Xapian可能是搜索引擎庫的不錯選擇。
爬蟲/解析器與Xapian集成有哪些選項?
Solr是否比Xapian更好地選擇與開源搜索器/解析器集成?
Here's Xapian和Solr稍微比較一下。
但是,如果你想構建一個爬蟲,看看Nutch。這是extensible with plugins,所以你可以寫一個插件,分析你正在尋找的信息。
Flax可能會提供一些你正在尋找的東西。