我正在使用xgoogle
在互聯網上搜索某些內容的程序,然後查找結果網站中的所有文件。我在查找網站中的所有文件時遇到問題。我發現了一個類似的question,但我無法使其工作。這是我一直在使用的代碼。列出網站上的所有文件
from bs4 import BeautifulSoup
import requests
def find_files():
url = "http://www.python.org"
soup = BeautifulSoup(requests.get(url).text)
for a in soup.find('div', {'class': 'catlist'}).find_all('a'):
yield url + a['href']
當我打電話時,代碼無法運行。我已經把函數中的打印語句,但沒有任何反應。 我應該怎麼做才能修復它?這個函數如何返回網站中所有文件的列表?
嗨,你是什麼意思的「網站上的文件」?你指的是網頁上的鏈接嗎? – msturdy
我指的是頁面的文件系統。例如,find_files(「http://www.python.org」)的結果將是http://www.python.org/doc/以及http://www.python.org/about/和全部該站點文件系統中的其他目錄和文件。 – AHuman
這些都不是「文件」或「目錄」。他們是鏈接。 –