2
我正在爲nutch製作一個自定義分析插件並遇到問題。我想要在種子網址的特定區域中抓取所有網址。但nutch忽略外部鏈接,這些鏈接不會被抓取。外部鏈接沒有抓取
例如:種子網址 - https://in.news.yahoo.com
它包含像timesofindia.com,thehindu.com等網站的鏈接,但這些鏈接不會被抓取。
我的nutch-site.xml中包含: -
<property>
<name>db.ignore.external.links</name>
<value>false</value>
</property>
和正則表達式的URL過濾器接受任何事情。(與正則表達式+)。 我想知道爲什麼nutch忽略了作爲種子給出的url中的某些外部鏈接。請幫助
Thanks.It是有益:) – Sachin