我讓自己熟悉Apache Nutch和Solr的抓取,但是意識到儘管HTTP和HTTPS鏈接可用於Solr查詢結果中,但content
字段磁鏈接不是。我調整conf/regex-urlfilter.txt
是如何使用Apache Nutch和Solr抓取磁鏈接,以便它們在Solr查詢結果中可用?
-^(file|ftp|mailto):
# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
# skip URLs containing certain characters as probable queries, etc.
#-[?*[email protected]=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
# for linuxtracker.org
+^https?://*linuxtracker.org/(.+)*$
#+^magnet:\?xt=(.+)*$
# causes magnet links to be ignored/not appear in content field
+^magnet:*$
# reject anything else
-.
,不明白爲什麼磁鐵鏈接不應該包括內部content
。如您所見,我正在使用http://linuxtracker.org進行調查,例如,有磁鐵鏈接磁鐵:?xt = urn:btih:ETDW2XT7HJ2Y6B4Y5G2YSXGC5GWJPF6P on http://linuxtracker.org/?page=torrent-details&id=24c76d5e7f3a758f0798e9b5895cc2e9ac9797cf。
在pysolr
查詢Solr的時候如下與bin/crawl
這兒有磁鐵鏈接爬行後:
solr = pysolr.Solr(solr_core_url, timeout=10)
results = solr.search('*:*')
for result in results:
print(result)
我使用Apache Nutch的釋放-1.13-73-g9446b1e1在Ubuntu 17.04和Solr 6.6.1。
你期望爬行磁鏈接有什麼結果? – MatsLindh
目的是要有一個網站/域名上的所有磁鐵鏈接的列表來做一些事情。 –