我正在測試它,Nokogiri似乎並不尊重Robots.txt文件。有沒有辦法讓它尊重?這似乎是一個常見的問題,但我無法在網上找到任何答案。如何使用Nokogiri來尊重Robots.txt?
回答
Nokogiri解析您提供的HTML或網頁。它不知道關於您碰巧請求的頁面所在域的robots.txt文件的任何內容。
我認爲你想忽略robots.txt中的現場鏈接?
既然你已經標記了這個Rails,我會假設你使用Ruby。在這種情況下,您可以使用具有設施的Mechanize library使用robots.txt文件。
如果您更喜歡這些,還有原始Perl版本和其他語言端口。
謝謝。直到現在,Nokogiri似乎都很好。我將切換到機械化 –
@BasharAbdullah Nokogiri不提取HTML頁面。據推測,您使用'open-uri'(Ruby標準庫的一部分)來獲取您的URL。 – Phrogz
@Progrog True。對困惑感到抱歉 –
- 1. BingBot&BaiduSpider不尊重robots.txt
- 2. 如何使用mktime來尊重時區
- 3. Scrapy刮板如何在robots.txt中尊重抓取延遲?
- 4. 如何使IE8尊重.removeClass()?
- 5. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 6. 如何使用robots.txt中
- 7. 如何使用XSLT使用`<xsl:apply-template>`來尊重XML順序?
- 8. 如何使GridLayout尊重列設置?
- 9. 如何使IE9尊重jQuery的懸停()
- 10. 如何尊重Android Clean Architecture
- 11. 如何使用引入nokogiri
- 12. 如何使用Nokogiri gem
- 13. 如何使用SAX和Nokogiri?
- 14. 如何獲得使用引入nokogiri使用引入nokogiri
- 15. 使用robots.txt來阻止/?param = X
- 16. 使用Twitter Bootstrap,我如何改變CSS樣式來尊重換行符?
- 17. robots.txt的使用
- 18. 如何處理使用Nokogiri時使用
- 19. 如何使[DebuggerDisplay]尊重繼承類或至少使用集合?
- 20. 的.htaccess和robots.txt的重寫URL如何
- 21. 的.htaccess重定向到/robots.txt的/robots.txt/
- 22. 如何使用Python 2.7遵守robots.txt?
- 23. 如何使用Perl Dancer服務robots.txt
- 24. 如何使用PHP解析robots.txt文件?
- 25. 如何使用Nokogiri :: XML :: Reader來解析大型XML文件?
- 26. 如何在Nokogiri中使用「doc」標記來構建XML文檔
- 27. 如何使用Rails緩存來存儲Nokogiri對象?
- 28. 如何用.htaccess替換robots.txt
- 29. 使Eclipse尊重Maven-Dependency-Plugin
- 30. 使git推尊重權限?
爲什麼你只是不能閱讀robots.txt並尊重它? – shabunc
我不明白這個問題。你正在用'nokogiri'來做什麼?那和'robots.txt'有什麼關係? – rdvdijk
shabunc我可以,但它會更好,如果有一個現成的解決方案 –