因此,我正在執行一些嘗試在網上刮取用戶的醜聞。omegle lxml刮不工作
這是HTML代碼:
<div id="onlinecount">
<strong>
30,000+
</strong>
</div>
現在我假定使用LXML這將是//div[@id="onlinecount"]
刮中的任何文字,我想從標籤獲得的數字,但是當我嘗試刮這個,我剛剛結束了一個空表
這裏是我的相關代碼:
print "\n Grabbing users online now from",self.website
site = requests.get(self.website)
tree = html.fromstring(site.text)
users = tree.xpath('//div[@id="onlinecount"]')
注意,self.website變量只是http://www.omegle.com
任何想法我做錯了什麼?注意我可以刮除其他部分而不是在線用戶的數量。
我結束了使用從朋友那裏學到的一組不同的代碼。 下面是我感興趣的任何人的完整代碼。 http://pastebin.com/u1kTLZtJ
我無法從我的位置獲取源代碼,但也許HTML代碼不是完美的XML。在這種情況下,lxml可能無法正確解析樹。在這種情況下,BeautifulSoup來拯救。只是我的兩美分:) – Cilyan