我有一個列表,我從包含一些非標準字符的網頁中提取。Python轉換非標準字符
列表例如:
[<td class="td-number-nowidth"> 10Â 115 </td>, <td class="td-number-nowidth"> 4Â 635 (46%) </td>, <td class="td-number-nowidth"> 5Â 276 (52%) </td>, ...]
與帽子A被認爲是逗號。有人可以建議如何轉換或替換這些,所以我可以得到值10115,如列表中的第一個值?
的源代碼:
from urllib import urlopen
from bs4 import BeautifulSoup
import re, string
content = urlopen('http://www.worldoftanks.com/community/accounts/1000395103-FrankenTank').read()
soup = BeautifulSoup(content)
BattleStats = soup.find_all('td', 'td-number-nowidth')
print BattleStats
感謝, 弗蘭克
你以前的問題表明你使用'BeautifulSoup()'應該自動處理字符編碼。你如何得到''? (提供一些代碼) – jfs
你是對的J.F.這裏是我玩的代碼(在上面發佈)。 –