2011-06-27 73 views
3

我無法找到關於如何設置nutch以不過濾/刪除我的URL參數的任何提示。我想抓取並索引一些頁面,其中很多內容隱藏在相同的基本URL後面(如/news.jsp?id=1/news.jsp?id=2/news.jsp?id=3等等)。將URL參數添加到Nutch/Solr索引和搜索結果中

  • 正則表達式,normalize.xml只能從URL中移除多餘的東西(如會話ID和機翼後?)
  • 正則表達式,urlfilter.txt似乎有一個通配符我的主人(+^http:// $ myHost /)

到目前爲止,抓取工作正常。有任何想法嗎?

歡呼聲, 法力

編輯:

解決方案的一部分被隱藏在這裏:

configuring nutch regex-normalize.xml

# skip URLs containing certain characters as probable queries, etc. 
-[?*[email protected]=] 

必須modfied。必須允許所有可能存在於URL參數中的字符,如'?'和'='。新行看起來像

-[*[email protected]] 

頁面現在用params進行爬網。但是,他們還沒有發送到Solr與參數(Solr的還是從鏈接切割參數)

EDIT2:

Nutch的有關於如何處理相對URL(「Param =參數值?」)的一些問題。仍然停留在該參數的事情:

見馬嶺列表:http://search.lucidimagination.com/search/document/b6011a942b323ba3/problem_with_href_param_value_links

回答

1

你可以在Nutch的過濾器,以節省整個URL創建自定義字段。只要您在Solr架構中定義store =「true」的相同字段,它就會顯示在您的結果中。請參閱WritingPluginExample-1.2

讓我知道你是否想要一些幫助。