2017-07-06 66 views
0

刪除特殊字符我用美麗的湯湊一些HTML/XHTML網頁如下:Python3:從文本

response = requests.get(url) 
soup = BeautifulSoup(response.text) 
tables_list = soup.find_all("table") 

然而,我的輸出顯示了幾個特殊字符(如A)這是我想過濾出。我想我在解碼方面缺少一些東西。

你能指點我可能會在這裏失蹤嗎?謝謝。

回答

1

如果response.text包含您的迴應,並且您想過濾掉這些特殊字符,您可以做的是重新編碼您的字符串以便僅保留ascii字符(並忽略其他字符)然後再次解碼,像這樣(Python3):

In [7]: text = '<tag> normal text  â˙∆¬˚∆ hello ©µµ </tag>' 

In [8]: text.encode('ascii', 'ignore').decode('ascii') 
Out[8]: '<tag> normal text hello </tag>' 

這樣做對response.text,然後您可以與您處理的其餘部分繼續。

+0

太棒了,謝謝! –

+0

@ D.prd乾杯,很高興提供幫助。 :) –

+0

@COLDSPEED,我正在做ascii解碼,但只是意識到我的結果文本顯示了幾個不需要的字符,如'\ xa0','\ r \ r''。我錯過了什麼嗎?謝謝。 –