我seed.txt的內容是https://www.drugs.com
,我想抓取與結構頁面作爲Nutch的1.12的正則表達式URL過濾無法形成正則表達式
uniqueDrugName的.html
例我想要抓取的網頁是
https://www.drugs.com/cdi/acetaminophen.html
https://www.drugs.com/cdi/refludan.html
https://www.drugs.com/cdi/Erbitux.html
https://www.drugs.com/cdi/ontak.html
,我想爬幾這些藥物頁面。 請建議如何或什麼正則表達式我應該使用,因爲我是一個正則表達式的新手。謝謝。
我曾嘗試以下的正則表達式,但他們沒有工作
+^https://([a-z0-9]*\.)*drugs\.com/cdi/([a-z0-9]*\.)*html
在你的正則表達式開始時''是什麼意思? – ltux
@ltux'+'需要讓nutch知道滿足這個表達式的url需要被接受,並且滿足以'-'開頭的表達式的urls應該被忽略。對於**示例**請參閱[鏈接](https://github.com/kinow/nutch/blob/master/conf/regex-urlfilter.txt.template) –
我也面臨類似的問題,在這裏發佈的問題http ://stackoverflow.com/questions/42497690/nutch-not-crawling-urls-except-the-one-specified-in-seed-txt但沒有反應yet.Please讓我知道你是否能夠解決它。 – Torukmakto