我使用HERITRIX來抓取名爲octetfarm.com的網站。我希望抓取工具對URI(或URL)執行正則表達式,並且如果字符串「octetfarm」存在,抓取工具應該接受它。Heritrix DecidingScope正則表達式URI
我做了2條規則
1 MatchesRegExpDecideRule 「接受」 和正則表達式 「.octetfarm。」
2 rejectByDefault
當我發動octetfarm.com履帶(我非常簡單的測試網站)的第一頁只是一個鏈接如下:
<a href="http://octetfarm.com/layer1/layer1.html">layer1</a>
爲什麼抓取工具不遵循該SIM卡其中包含字符串「octetfarm」的鏈接。
這裏是我在XML
<newObject name="decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence">
<map name="rules">
<newObject name="rejectByDefault" class="org.archive.crawler.deciderules.RejectDecideRule">
</newObject>
<newObject name="octetfarm" class="org.archive.crawler.deciderules.MatchesRegExpDecideRule">
<string name="decision">ACCEPT</string>
<string name="regexp">*.octetfarm.*</string>
</newObject>
</map>
</newObject>