2011-11-01 64 views
-3
for i in range(1,1000000): 

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i)) 
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i) 
    soup = BeautifulSoup(page) #retreive 

    books = soup.findAll("div",{"id":"Title"}) #process 

我需要爬遍整個目錄爲出版商。 我需要檢索:Beautifulsoup刮書目錄

  • 書圖像
  • 標題
  • 出版商
  • pubdate的
  • PriceCurrency
  • 約285 | 210
  • 說明(一個Ajax標籤內)
+1

問題是什麼? – 0xd

+0

我需要爲目錄中的每本圖書提取圖像。 – user1023506

+0

您能否提供代表書籍的HTML代碼塊? – 0xd

回答

0

使用XPath從這些位置提取內容