2011-11-18 103 views
0

我想開發一個搜索功能,我輸入城市名稱,它給了我的城市的天氣條件。
我在我的系統上設置了Nutch-1.3和Solr-3.4.0。我爬行的網站是here,並將索引傳遞給Solr進行搜索。現在,我想要檢索this link上顯示的信息,查詢德里。Nutch履帶不索引HTML內容

我該如何做到這一點?它是否需要編寫任何插件?

<doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc> 

回答

1

Nutch基本上爬過頁面上的鏈接。
但是,India page上沒有鏈接,因此無法訪問您提到的Delhi page
所以它無法將其導航到該頁面。

您可以創建您自己的虛擬html頁面,充當索引的起始網址,並擁有您希望Nutch索引的所有鏈接。

什麼是你架構中的默認搜索字段?
通常它的文本字段和查詢德里將查找該字段的匹配。
由於*:*返回德里結果,而德里沒有。它不匹配它正在搜索的字段上的索引標記。

什麼是模式中爲url定義的字段類型?
您可以通過文本分析將字段複製到其他字段,這會生成德里標記並查詢url_copy:delhi應該返回結果。

+0

實際上,nutch取得了德里的頁面鏈接,但在查詢德里時,並沒有顯示任何結果。我使用「*:*」編輯了我的帖子,其中包含了solr返回的XML快照。 – Shaggy

+0

更新了答案 – Jayendra

+0

感謝您的回覆。 url的字段類型僅爲「url」,您的意思是「您可以使用文本分析將字段複製到其他字段」?我怎樣才能做到這一點?只是爲了快速檢查,是否有可能獲取德里頁面上的詳細信息(降雨量,溫度等),因爲該頁面的來源有點奇怪? – Shaggy