2016-11-16 65 views

回答

0

所以基本上你想知道從哪個種子URL(在你的seed.txt文件中)一個特定的URL來自哪裏?如果是這種情況,那麼基本上很容易,seed.txt文件支持添加custom metadata key/vale pair after the URL。基本上只要使用以下格式:

URL <tab> key=value 

例如像:

http://my-news-site.com source=news 

之後,你將需要使用和配置urlmeta插件元數據傳播到種子的所有對外連結URL。這會導致您最終在索引中爲source字段顯示原始種子URL及其所有鏈接。

+0

這可以幫助我與內部鏈接以及外部鏈接?就像一個特定的URL有不同的域名鏈接到另一個URL? @Jorge Luis – user7140275

+0

是@ user7140275這會將您想要的元數據(包括'seed.txt'文件中指定的元數據)傳播到網頁上檢測到的每個outlink。目前有一個開放的Jira票據[NUTCH-1872](https://issues.apache.org/jira/browse/NUTCH-1872),用於過濾傳播元數據的outlinks –