Python3：從文本

刪除特殊字符我用美麗的湯湊一些HTML/XHTML網頁如下：Python3：從文本

response = requests.get(url) 
soup = BeautifulSoup(response.text) 
tables_list = soup.find_all("table")

然而，我的輸出顯示了幾個特殊字符（如A）這是我想過濾出。我想我在解碼方面缺少一些東西。

你能指點我可能會在這裏失蹤嗎？謝謝。

來源

2017-07-06 D.prd

如果response.text包含您的迴應，並且您想過濾掉這些特殊字符，您可以做的是重新編碼您的字符串以便僅保留ascii字符（並忽略其他字符）然後再次解碼，像這樣（Python3）：

In [7]: text = '<tag> normal text Â â˙∆¬˚∆ hello ©µµ </tag>' 

In [8]: text.encode('ascii', 'ignore').decode('ascii') 
Out[8]: '<tag> normal text hello </tag>'

這樣做對response.text，然後您可以與您處理的其餘部分繼續。

來源

2017-07-07 00:08:07

太棒了，謝謝！ –

@ D.prd乾杯，很高興提供幫助。 :) –

@COLDSPEED，我正在做ascii解碼，但只是意識到我的結果文本顯示了幾個不需要的字符，如'\ xa0'，'\ r \ r''。我錯過了什麼嗎？謝謝。 –

Python3：從文本

回答

相關問題