當我使用lmxl解析網頁時,LXML-的XPath可以得到目標的一部分,請參閱我的代碼:LXML可以在python解析TR的一部分
import urllib
import lxml.html
url="http://sc.hkex.com.hk/gb/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm"
file=urllib.urlopen(url).read()
root=lxml.html.document_fromstring(file)
for company in root.xpath('//tr[@class="tr_normal"]'):
print company.text_content().encode('utf-8')
>>>00325創生控股1,000#
00326中國星集團50,000#
00327百富環球1,000
00328ALCO HOLDINGS2,000#
00329
>>>
有兩個問題:
1爲什麼我只能得到000329?其他的木材丟失了?
2.爲什麼我無法獲得代碼大於000329的公司信息?
您能否給我們提供您正試圖解析的頁面的鏈接?我幾乎無法閱讀屏幕截圖...並且看到源html也可能會有所幫助。 –
也許'.read()'是不完整的;嘗試使用'lxml.html.parse(urllib.urlopen(url))'(注意,不要調用'.read()'調用,將它留給解析器)。 –
url =「http://sc.hkex.com.hk/gb/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm」 –