0
我已經實現了深度爲3的Nutch crawler。現在,當我將數據提取到cassandra時,我有一個包含URL和來自特定的URL。那麼是否有任何方法可以追溯到深度抓取URL已在seed.txt中更新並抓取的本地URL的路徑。跟蹤從外部鏈接已被抓取到的基礎url的路徑
我已經實現了深度爲3的Nutch crawler。現在,當我將數據提取到cassandra時,我有一個包含URL和來自特定的URL。那麼是否有任何方法可以追溯到深度抓取URL已在seed.txt中更新並抓取的本地URL的路徑。跟蹤從外部鏈接已被抓取到的基礎url的路徑
所以基本上你想知道從哪個種子URL(在你的seed.txt
文件中)一個特定的URL來自哪裏?如果是這種情況,那麼基本上很容易,seed.txt
文件支持添加custom metadata key/vale pair after the URL。基本上只要使用以下格式:
URL <tab> key=value
例如像:
http://my-news-site.com source=news
之後,你將需要使用和配置urlmeta
插件元數據傳播到種子的所有對外連結URL。這會導致您最終在索引中爲source
字段顯示原始種子URL及其所有鏈接。
這可以幫助我與內部鏈接以及外部鏈接?就像一個特定的URL有不同的域名鏈接到另一個URL? @Jorge Luis – user7140275
是@ user7140275這會將您想要的元數據(包括'seed.txt'文件中指定的元數據)傳播到網頁上檢測到的每個outlink。目前有一個開放的Jira票據[NUTCH-1872](https://issues.apache.org/jira/browse/NUTCH-1872),用於過濾傳播元數據的outlinks –