我有位於http://somedomain.com/somedir/example.html引入nokogiri發現只有入站鏈接
HTML文檔的文檔中包含的四個環節:
http://otherdomain.com/other.html
http://somedomain.com/other.html
/only.html
測試html的
如何獲取當前域中鏈接的完整url?
我的意思是我應該得到:因爲它一點兒也不符合我的域名
我有位於http://somedomain.com/somedir/example.html引入nokogiri發現只有入站鏈接
HTML文檔的文檔中包含的四個環節:
http://otherdomain.com/other.html
http://somedomain.com/other.html
/only.html
測試html的
如何獲取當前域中鏈接的完整url?
我的意思是我應該得到:因爲它一點兒也不符合我的域名
使用常規
http://somedomain.com/other.html
http://somedomain.com/only.html
http://somedomain.com/somedir/test.html
第一個環節應該被忽略表達式提取鏈接從href =「URL」 然後concate
import re
import urlparse
domain = ...
html = ...
links = re.findall('href=[\'"](.*?)[\'"]', html)
links = [urlparse.urljoin(domain, link) for link in links if link]
喜歡的東西
doc.search("a").map do |a|
url = a.attribute("href")
#this part could be a lot more robust, but you get the idea...
full_url = url.match("^http://") ? url : "http://somedomain.com/#{url}"
end.select{|url| url.match("^http://somedomain.com")}
:內特與域,如果它不以 「http」
這裏是一個Python的例子開始