跟蹤從外部鏈接已被抓取到的基礎url的路徑

我已經實現了深度爲3的Nutch crawler。現在，當我將數據提取到cassandra時，我有一個包含URL和來自特定的URL。那麼是否有任何方法可以追溯到深度抓取URL已在seed.txt中更新並抓取的本地URL的路徑。跟蹤從外部鏈接已被抓取到的基礎url的路徑

來源

2016-11-16 user7140275

所以基本上你想知道從哪個種子URL（在你的seed.txt文件中）一個特定的URL來自哪裏？如果是這種情況，那麼基本上很容易，seed.txt文件支持添加custom metadata key/vale pair after the URL。基本上只要使用以下格式：

URL <tab> key=value

例如像：

http://my-news-site.com source=news

之後，你將需要使用和配置urlmeta插件元數據傳播到種子的所有對外連結URL。這會導致您最終在索引中爲source字段顯示原始種子URL及其所有鏈接。

來源

2016-11-16 10:42:20

這可以幫助我與內部鏈接以及外部鏈接？就像一個特定的URL有不同的域名鏈接到另一個URL？ @Jorge Luis – user7140275

是@ user7140275這會將您想要的元數據（包括'seed.txt'文件中指定的元數據）傳播到網頁上檢測到的每個outlink。目前有一個開放的Jira票據[NUTCH-1872]（https://issues.apache.org/jira/browse/NUTCH-1872），用於過濾傳播元數據的outlinks –

跟蹤從外部鏈接已被抓取到的基礎url的路徑

回答

相關問題