0
我是nutch和solr的新人。 我使用nutch來抓取網站,並使用solr來索引這些網頁。 有沒有一種方法來檢索solr數據庫中的鏈接內容?我如何檢索solr中的頁面信息?
爲例
- ,如果我有索引http://www.prova.com/prova.html
- 此頁面包含文本「這是一個新的頁面」 Solr中
- ,有沒有什麼地方保存的文本頁面?
感謝
達尼洛
我是nutch和solr的新人。 我使用nutch來抓取網站,並使用solr來索引這些網頁。 有沒有一種方法來檢索solr數據庫中的鏈接內容?我如何檢索solr中的頁面信息?
爲例
感謝
達尼洛
頁面的文本存儲在一個名爲 「內容」 字段。請注意,這不是原始頁面,而是頁面的解析版本。可搜索的內容應該出現在這裏,但不是元標記和JavaScript。
嗨邁克。但在Java中,我如何檢索這個字段的內容?謝謝 – user2834966