我一直在嘗試使用過的Nutch在我的網址文件中域的第一頁爬過,然後使用Solr的做關鍵字搜索中的抓取的數據上。到目前爲止,我還沒有能夠以這種方式獲得任何工作,除非這兩個頁面鏈接在一起。Nutch的+ Solr的頂級頁面只
我意識到這可能是不具有導入鏈接的網頁的問題,因此,PageRank算法丟棄的頁面內容。我嘗試調整參數,以便不在圖表中的urls的默認分數更高,但我仍然得到相同的結果。
有沒有人知道可以在沒有傳入鏈接的頁面上構建索引?
謝謝!
我一直在嘗試使用過的Nutch在我的網址文件中域的第一頁爬過,然後使用Solr的做關鍵字搜索中的抓取的數據上。到目前爲止,我還沒有能夠以這種方式獲得任何工作,除非這兩個頁面鏈接在一起。Nutch的+ Solr的頂級頁面只
我意識到這可能是不具有導入鏈接的網頁的問題,因此,PageRank算法丟棄的頁面內容。我嘗試調整參數,以便不在圖表中的urls的默認分數更高,但我仍然得到相同的結果。
有沒有人知道可以在沒有傳入鏈接的頁面上構建索引?
謝謝!
嘗試Nutch的注入命令插入「無進來的鏈接」網址進入Nutch的DB。我猜如果你在solr索引中沒有看到任何東西,那是因爲這些URL的數據沒有存儲在nutch DB中(因爲nutch會小心地將它的DB與索引同步)。數據庫中沒有數據可能是由於URL是孤立的,因此您可以嘗試使用inject命令來包含這些網站。
我想嘗試真正看到內部數據庫中的索引插入值之前驗證Nutch的行爲,因爲它的數據塊內Nutch的存儲數據。
分配更高的分數沒有任何效果,因爲Lucene的將只要數據是在索引給你的結果。
Solr默認使用Tika讀取HTML文件,所以這不是問題。
http://wiki.apache.org/solr/TikaEntityProcessor
如果你想要的是上市頁,有沒有使用爬蟲Nutch的具體原因是什麼?或者,您可以將網址提供給Solr並從那裏出發?
這很難理解(可能只是我)你怎麼第一段(通過Nutch的和Solr的搜索內容抓取)是有關第二(網頁級別)。你究竟想要做什麼?一旦內容被索引到可搜索的字段和標準配置,它應該工作,無論鏈接,除非你設置一些特定的鏈接。 – Vishal