我正在處理一個項目,該項目涉及到一些源代碼並將其煮爲僅顯示在頁面上的單詞。我可以讓它去除所有的html標籤,以及腳本標籤之間的所有東西,但我無法弄清楚如何刪除所有以反斜槓開頭的字符。一個頁面將包含\ t,\ n和\ x **,其中*似乎是任何小寫字母或數字。刪除python中的長字符串中的某些字符
我將如何編寫一個代碼,用空格替換所有這些部分的字符串?我在Python中工作。
例如,這是從網頁的字符串:
\n\t\n\t\n\t\tApple - Wikipedia, the free encyclopedia\n\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\n\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\n\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\n\t\t\tLanguage:English\xd8\xa7\xd9\x84\xd8\xb9\xd8\xb1\xd8\xa8\xd9\x8a\xd8\xa9Aragon\xc3\xa9sAsturianuAz\xc9\x99rbaycanca\xe0\xa6\xac\xe0\xa6\xbe\xe0\xa6\x82\xe0\xa6\xb2\xe0\xa6\xbeB\xc3\xa2n-l\xc3\xa2m-g\xc3\xbaBasa Banyumasan\xd0\x91\xd0\xb5\xd0\xbb\xd0\xb0\xd1\x80\xd1\x83\xd1\x81\xd0\xba\xd0
將成爲:
Apple - Wikipedia, the free encyclopedia Language:English sAsturianuAz rbaycanca Basa Banyumasan
你能解釋一下嗎? – varunl
發佈一個具有期望輸出的簡短示例 –
如果它特別是您感興趣的維基百科內容,最好使用維基百科提供的數據庫轉儲:https://en.wikipedia.org/wiki/Wikipedia:Database_download –