我想檢查一個給定的網站是否包含robot.txt,讀取該文件的所有內容並打印它。也許還可以將內容添加到字典中會很好。在Python中讀取robots.txt的內容並打印它
我試過玩robotparser
module,但無法弄清楚如何去做。
我只想使用標準Python 2.7包裝附帶的模塊。
我一樣@Stefano聖菲利波建議:
from urllib.request import urlopen
返回
Traceback (most recent call last):
File "<pyshell#1>", line 1, in <module>
from urllib.request import urlopen
ImportError: No module named request
所以,我想:
import urllib2
from urllib2 import Request
from urllib2 import urlopen
with urlopen("https://www.google.com/robots.txt") as stream:
print(stream.read().decode("utf-8"))
,但得到:
Traceback (most recent call last):
文件 「」,1號線,在 用的urlopen( 「https://www.google.com/robots.txt」)作爲流: AttributeError的:addinfourl實例沒有屬性 '退出'
從bugs.python.org似乎是在2.7版本不支持的東西。 事實上,Python的代碼工作正常3 任何想法如何解決這個問題?
你並不需要了解該網站知道'robots.txt'必須的任何結構。它總是在'whatever.site.name/robots.txt'。 – user2357112
@jonsharpe我重申了這個問題。現在是否足夠狹窄?問題已解決,但我想知道是否可以刪除狀態「擱置」。感謝 –