我正在按照教程here,試圖建立一個機器人對網站。Nutch域正則表達式
我在包含所有產品類別的頁面中。說它是www.example.com/allproducts
。
在深入每個類別後。您可以以表格格式查看產品列表,您可以單擊下一頁來循環該類別內的所有頁面。其實你只能看到1,2,3,4,5,最後一頁。
在類別中的第一個頁面的URL看起來像www.example.com/level1/level2/_/N-1
,那麼第二個頁面會看起來像www.example.com/level1/level2/_/N-1/?No=100
..等等的等等..
我個人沒有那麼多的JAVA編程經驗和我想知道
可以用我的Nutch抓取所有產品列表頁和存儲對於現在的HTML ..
,也許後來想出一個辦法來解析HTML/C數orrectly。
(1)可我只是修改conf/regex-urlfilter.txt
,並用正確的東西取代
# accept anything else
+.
? (我只是不明白怎麼會
+^http://([a-z0-9]*\.)*nutch.apache.org/
僅限制Nutch的域名中的網址...,我會解釋這個正則表達式是雙斜線和Nutch的之間,有可能是任何字符字母數字或星號,反斜線或點..)
如何建立正則表達式所以只刮http://www.example.com/.../.../_/N-../...
(2)我可以看到HTML存儲在content
文件夾內segment
...但是,當我在VI中打開該文件時,對我來說,這看起來完全是無稽之談。 ..我想知道,如果這是所謂的JAVA序列化,我需要在JAVA反序列化閱讀它。
請原諒我,如果這些問題太基本,並且非常感謝您的閱讀。