2011-09-29 109 views
0

我正在測試它,Nokogiri似乎並不尊重Robots.txt文件。有沒有辦法讓它尊重?這似乎是一個常見的問題,但我無法在網上找到任何答案。如何使用Nokogiri來尊重Robots.txt?

+1

爲什麼你只是不能閱讀robots.txt並尊重它? – shabunc

+2

我不明白這個問題。你正在用'nokogiri'來做什麼?那和'robots.txt'有什麼關係? – rdvdijk

+0

shabunc我可以,但它會更好,如果有一個現成的解決方案 –

回答

4

Nokogiri解析您提供的HTML或網頁。它不知道關於您碰巧請求的頁面所在域的robots.txt文件的任何內容。

我認爲你想忽略robots.txt中的現場鏈接?

既然你已經標記了這個Rails,我會假設你使用Ruby。在這種情況下,您可以使用具有設施的Mechanize library使用robots.txt文件。

如果您更喜歡這些,還有原始Perl版本和其他語言端口。

+0

謝謝。直到現在,Nokogiri似乎都很好。我將切換到機械化 –

+0

@BasharAbdullah Nokogiri不提取HTML頁面。據推測,您使用'open-uri'(Ruby標準庫的一部分)來獲取您的URL。 – Phrogz

+0

@Progrog True。對困惑感到抱歉 –