2011-03-09 62 views
0

我目前正在爲網站內容製作搜索引擎(僅限於在該網站內搜索)。不過,我正在考慮在臨時服務器中構建索引。它是這樣的: 1.我在www.staging_server.com上登錄我的代碼 2.我登錄www.staging_server.com索引頁面 3.我將代碼在www.staging_server.com上覆制到www.production_server.com 4.我將索引複製到www.production_server.com索引?以編程方式更改nutch索引中的url域

步驟4的問題在於,步驟2中創建的索引中的網址的形式爲www.staging_server.com/index,www.staging_server.com/whatever,www.staging_server/anything。但我需要的是www.production_server.com/index,www.production_server.com/whatever,www.production_server.com/anything

我想知道在索引中的網址是否可以通過編程方式更改。如果是的話,該怎麼做?

注:我Nutch的初學者,所以請對我仁慈

回答

1

如果你只抓取之後的索引工作,你可以打開了一個Lucene的IndexReader索引,並用添加新記錄IndexModifier。您可以翻閱每個文檔,使用新的url創建文檔的副本,然後將新文檔添加回索引。如果您不需要保留索引,則需要刪除原始文檔。

Lucene不允許索引更新,而是刪除舊記錄並插入新記錄。

相關問題