我正在嘗試創建一個Python應用程序,該應用程序使用lxml從網站上刮取HTML並收集這些國家及其相應的首都。我從以下網址獲取HTML:http://www.manythings.org/vocabulary/lists/2/words.php?f=countries_and_capitals,我無法弄清楚如何獲得所有國家,以便我可以將它們放入列表中。這是我到目前爲止有:如何爲HTML元素找到所需的XPath?
from lxml import html
import requests
page = requests.get("http://www.manythings.org/vocabulary/lists/2/words.php?f=countries_and_capitals")
tree = html.fromstring(page.content)
countries = tree.xpath('//*[@id="yui-main"]/div/div[2]/div/div[1]/ul/li[1]/b')
capitals = tree.xpath('//*[@id="yui-main"]/div/div[2]/div/div[1]/ul/li[1]/i')
print 'Countries: ', countries
print 'Capitals: ', capitals
眼下輸出是兩個空列表,我相當肯定這是因爲XPath的是不正確的,但我不熟悉不夠使用XPath也不HTML糾正它。我非常樂意接受答案,而不是提供答案。