2011-07-07 25 views
0

我想知道如何設置一個搜索引擎這個約束:我如何允許用戶搜索沒有參考其URL的數據?

在網站(小流量網站),新聞內容被存儲,但我們不知道這些內容實際顯示的位置;我們無法猜測網址。

您是否知道如何以及使用哪種技術來實現此功能?

我想我需要一個搜索引擎,它在搜索時抓取整個網站?有人可以告訴我,如果sphynx/lucene/solr會合適嗎?

回答

1

無論您選擇哪種搜索引擎,您都必須提供足夠的信息。因此,有了你的約束,你不能在世界上使用任何搜索引擎。

當您向索引提交文檔或頁面時,還必須提供足夠的信息才能創建一個URL以顯示實際內容的位置。

Lucene是Solr使用的搜索API。兩者都是高質量的Apache項目,可以根據您的要求進行選擇。 Solr爲Lucene提供了一系列廣泛的功能,例如facetted seach和一個適用於所有操作的REST API。

+0

我不確定我是否同意你的看法,那麼抓取整個頁面的搜索引擎如何呢?這樣做使我能夠知道URL。創建一個任務每天抓取整個網站一次將有助於維護搜索數據庫的更新。 –

+0

如果您抓取整個頁面,您**會獲得足夠的信息。您的約束是*'我們無法猜測URL * * –

+0

Johan是正確的,抓取網頁意味着文檔引用是url ... –

相關問題