將URL參數添加到Nutch/Solr索引和搜索結果中

我無法找到關於如何設置nutch以不過濾/刪除我的URL參數的任何提示。我想抓取並索引一些頁面，其中很多內容隱藏在相同的基本URL後面（如/news.jsp?id=1/news.jsp?id=2/news.jsp?id=3等等）。將URL參數添加到Nutch/Solr索引和搜索結果中

到目前爲止，抓取工作正常。有任何想法嗎？

歡呼聲，法力

編輯：

解決方案的一部分被隱藏在這裏：

# skip URLs containing certain characters as probable queries, etc. 
-[?*[email protected]=]

必須modfied。必須允許所有可能存在於URL參數中的字符，如'？'和'='。新行看起來像

-[*[email protected]]

頁面現在用params進行爬網。但是，他們還沒有發送到Solr與參數（Solr的還是從鏈接切割參數）

EDIT2：

Nutch的有關於如何處理相對URL（「Param =參數值？」）的一些問題。仍然停留在該參數的事情：

2011-06-27 mana

你可以在Nutch的過濾器，以節省整個URL創建自定義字段。只要您在Solr架構中定義store =「true」的相同字段，它就會顯示在您的結果中。請參閱WritingPluginExample-1.2。

讓我知道你是否想要一些幫助。

2011-06-30 23:26:37 Claude

回答