我是新來的python,並試圖使用urllib2/lxml來獲取和解析頁面。一切似乎都很好,除了解析的頁面在我的瀏覽器中打開時似乎嵌入了奇怪的字符。我猜這是一個unicode/lxml解析問題。當我得到一個元素的文本內容,使用.text_content(),並打印它時,我在原始頁面中獲得諸如「sometext \ 342 \ 200 \ 223 moretext」之類的東西,這顯示爲「sometext - moretext」urllib2/lxml編碼問題
有誰能告訴我:
1.發生了什麼事?
2.我該如何解決?
3.我可以在哪裏閱讀這些編碼問題?
謝謝!
你能不能舉個例子?無論是代碼還是準確的結果,不僅僅是「像」blabla「」之類的東西,或者最好是兩者。另外,我們正在談論蟒蛇2或3? – 2010-12-10 22:31:14
你可以粘貼一些代碼,並確切顯示發生了什麼? – 2010-12-10 22:31:33