我無法找到關於如何設置nutch以不過濾/刪除我的URL參數的任何提示。我想抓取並索引一些頁面,其中很多內容隱藏在相同的基本URL後面(如/news.jsp?id=1/news.jsp?id=2/news.jsp?id=3等等)。將URL參數添加到Nutch/Solr索引和搜索結果中
- 的正則表達式,normalize.xml只能從URL中移除多餘的東西(如會話ID和機翼後?)
- 的正則表達式,urlfilter.txt似乎有一個通配符我的主人(+^http:// $ myHost /)
到目前爲止,抓取工作正常。有任何想法嗎?
歡呼聲, 法力
編輯:
解決方案的一部分被隱藏在這裏:
configuring nutch regex-normalize.xml
# skip URLs containing certain characters as probable queries, etc.
-[?*[email protected]=]
必須modfied。必須允許所有可能存在於URL參數中的字符,如'?'和'='。新行看起來像
-[*[email protected]]
頁面現在用params進行爬網。但是,他們還沒有發送到Solr與參數(Solr的還是從鏈接切割參數)
EDIT2:
Nutch的有關於如何處理相對URL(「Param =參數值?」)的一些問題。仍然停留在該參數的事情: