0
我想開發一個搜索功能,我輸入城市名稱,它給了我的城市的天氣條件。
我在我的系統上設置了Nutch-1.3和Solr-3.4.0。我爬行的網站是here,並將索引傳遞給Solr進行搜索。現在,我想要檢索this link上顯示的信息,查詢德里。Nutch履帶不索引HTML內容
我該如何做到這一點?它是否需要編寫任何插件?
<doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc>
實際上,nutch取得了德里的頁面鏈接,但在查詢德里時,並沒有顯示任何結果。我使用「*:*」編輯了我的帖子,其中包含了solr返回的XML快照。 – Shaggy
更新了答案 – Jayendra
感謝您的回覆。 url的字段類型僅爲「url」,您的意思是「您可以使用文本分析將字段複製到其他字段」?我怎樣才能做到這一點?只是爲了快速檢查,是否有可能獲取德里頁面上的詳細信息(降雨量,溫度等),因爲該頁面的來源有點奇怪? – Shaggy