Q

引入nokogiri發現只有入站鏈接

2010-05-26 42 views 0 likes

0

我有位於http://somedomain.com/somedir/example.html 引入nokogiri發現只有入站鏈接

HTML文檔的文檔中包含的四個環節：

http://otherdomain.com/other.html

http://somedomain.com/other.html

/only.html

測試html的

如何獲取當前域中鏈接的完整url？

我的意思是我應該得到：因爲它一點兒也不符合我的域名

2010-05-26 astropanic

A

回答

0

使用常規

http://somedomain.com/other.html

http://somedomain.com/only.html

http://somedomain.com/somedir/test.html

第一個環節應該被忽略表達式提取鏈接從href =「URL」然後concate

import re 
import urlparse 

domain = ... 
html = ... 
links = re.findall('href=[\'"](.*?)[\'"]', html) 
links = [urlparse.urljoin(domain, link) for link in links if link]

2010-05-27 01:45:43 hoju

1

喜歡的東西

doc.search("a").map do |a| 
    url = a.attribute("href") 
    #this part could be a lot more robust, but you get the idea... 
    full_url = url.match("^http://") ? url : "http://somedomain.com/#{url}" 
end.select{|url| url.match("^http://somedomain.com")}

：內特與域，如果它不以「http」

這裏是一個Python的例子開始

2010-05-27 02:13:09

相關問題

11. 引入nokogiri問題
12. 黃瓜引入nokogiri
13. 查找引入nokogiri
14. 引入nokogiri解析
15. 通過引入nokogiri
16. EOF與引入nokogiri
17. 使用引入nokogiri
18. 引入nokogiri解析
19. 如何獲得使用引入nokogiri使用引入nokogiri
20. 引入nokogiri從XML選擇超鏈接:: NODESET
21. 如何檢測mailto鏈接與角度來說，Hpricot /引入nokogiri
22. SEO網站只有鏈接
23. 如何只有一個字符串喂引入nokogiri
24. 引入nokogiri，只有當存在於文件
25. 引入nokogiri有：CSS選擇器後
26. 嘗試使用引入nokogiri
27. 引入nokogiri和名稱
28. 如何利用引入nokogiri
29. 解析與引入nokogiri
30. 引入nokogiri +通過文本