Nutch的+ Solr的頂級頁面只

2013-11-23 68 views 5 likes

我一直在嘗試使用過的Nutch在我的網址文件中域的第一頁爬過，然後使用Solr的做關鍵字搜索中的抓取的數據上。到目前爲止，我還沒有能夠以這種方式獲得任何工作，除非這兩個頁面鏈接在一起。Nutch的+ Solr的頂級頁面只

我意識到這可能是不具有導入鏈接的網頁的問題，因此，PageRank算法丟棄的頁面內容。我嘗試調整參數，以便不在圖表中的urls的默認分數更高，但我仍然得到相同的結果。

有沒有人知道可以在沒有傳入鏈接的頁面上構建索引？

謝謝！

來源

2013-11-23 Charles Durham

這很難理解（可能只是我）你怎麼第一段（通過Nutch的和Solr的搜索內容抓取）是有關第二（網頁級別）。你究竟想要做什麼？一旦內容被索引到可搜索的字段和標準配置，它應該工作，無論鏈接，除非你設置一些特定的鏈接。 – Vishal

回答

嘗試Nutch的注入命令插入「無進來的鏈接」網址進入Nutch的DB。我猜如果你在solr索引中沒有看到任何東西，那是因爲這些URL的數據沒有存儲在nutch DB中（因爲nutch會小心地將它的DB與索引同步）。數據庫中沒有數據可能是由於URL是孤立的，因此您可以嘗試使用inject命令來包含這些網站。

我想嘗試真正看到內部數據庫中的索引插入值之前驗證Nutch的行爲，因爲它的數據塊內Nutch的存儲數據。

分配更高的分數沒有任何效果，因爲Lucene的將只要數據是在索引給你的結果。

來源

2013-12-03 08:04:45