我想在python中寫一個小型web刮板,我想我遇到了一個編碼問題。我想刮(在頁面上專門的表格)http://www.resident-music.com/tickets - 一個行可能是這個樣子 -£顯示在urllib2和美麗的湯
<tr>
<td style="width:64.9%;height:11px;">
<p><strong>the great escape 2017 local early bird tickets, selling fast</strong></p>
</td>
<td style="width:13.1%;height:11px;">
<p><strong>18<sup>th</sup>– 20<sup>th</sup> may</strong></p>
</td>
<td style="width:15.42%;height:11px;">
<p><strong>various</strong></p>
</td>
<td style="width:6.58%;height:11px;">
<p><strong>£55.00</strong></p>
</td>
</tr>
我基本上是試圖用£55,以取代£55.00
,和其他任何「非文字'髒話。
我已經嘗試了幾種不同的編碼方式,你可以用beautifulsoup和urllib2去 - 無濟於事,我想我只是做了一切錯誤。
感謝
這不是你想如何使用unescape html,這意味着調用替換頁面上的每個轉義實體,並且初始str本身也可能導致編碼錯誤。我也不會鼓勵使用BeautifulSoup3。 –
我尊重你的評論,但我會不同意你的看法,如果你看看這裏:https://wiki.python.org/moin/EscapingHtml你會看到那些準備好的庫做的和我一樣代碼行,不同之處在於它們會給我準備好的結果,我個人不贊成。在某些情況下,他們完成這項工作,但這是一項非常具體且簡單的任務。至於'bs3'而不是'bs4',對於OP想要做什麼來說並不重要。但我也尊重你的意見! – coder
*我基本上試圖用55英鎊,**和任何其他「非文字」的髒東西來代替£ 55.00。***。 *其他'非文字'nasties *是逃脫的實體,可能是衆多的任何一個。它也很重要,bs3被打破,不再維護。 –