2013-07-29 82 views
0

我正在嘗試獲取該班級的所有網址='profile-search-school-link',但甚至無法獲得湯對象。爲什麼我的湯是空的?

我做到以下幾點:

site = "http://www.geteducated.com/profiles/search/Computer%20Science%20%26%20IT&SS=Search%20by%20Subject%20%3E%20Computer%20Science%20%26%20IT/?start=15" 

""" gets a list of the urls for the degree programs """ 
r = requests.get(site) 
html_source = r.text 
soup = BeautifulSoup(html_source) 

print(soup.prettify()) 

輸出:

<class 'bs4.BeautifulSoup'> # print statement 
[] # my depressingly empty soup 
  1. 這是怎麼回事的代碼?當我粘貼到我的瀏覽器時,鏈接不會中斷。

  2. 如何獲取網址?

回答

1

我不知道你,但我的鏈接被打破 - 這可能是你的第一個問題;)

我得到一個錯誤代碼500響應


嗯所以它在第一次轉到基礎網址時沒有啓動。

ahh我想這是因爲在您第一次訪問網站後,它會將內容存儲在本地存儲中 - 例如,餅乾。

我建議使用CookieLib

+0

當我貼到我的瀏覽器...... – goldisfine

+1

它不會對我的壓力也不會中斷);美麗的湯不能這樣做,除非你啓用cookies。你可以脫掉/?start = 15。那對我很有用。 – sihrc