2012-11-16 52 views
2

的字符串部分考慮到這個網址: http://www.nyse.com/about/listed/chn.html美麗的湯和提取陣列

我想找回這個字符串:「亞太(日本除外)基金」但它是不是在湯!?!

fundCode = 'chn' 
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html' 
html = urllib2.urlopen(url) 
soup = BeautifulSoup(html) 

這是奇怪的,因爲表中的其他部分在湯中。

有什麼想法?

回答

1

如果下載的是HTML(沒有瀏覽器)

content = html.read() 

,你會看到頁面數據由JavaScript函數提供。

要從此頁面提取信息,您需要一個可以處理JavaScript的庫。

一種方法是使用Selenium,另一種方法是使用PyQt's WebKit

+0

工程就像一個魅力,謝謝! – Sam