在mht文件中替換\ n

我試圖打開並處理mht文件並刮掉經銷商位置數據。每當我遇到一個HTML格式「棘手」的網站時，我總是會遇到同樣的問題。事實證明：在mht文件中替換 n

A HREF = 「http://www.google.com/maps?s=123主要ST」 ......

到

a href="http://www.= 
google.com/maps?=12= 
3 main st"

什麼我有迄今爲止嘗試過沒有努力把這條線帶回原來的自我。我仍然無法將地址關閉。

a = a.replace(r'=\n', '')

或

a = a.replace(r'\n', '')

甚至試過，

a = a.replace(r'[0D]', '')

和剛剛試過，

a = a.sub(r'\n', '')

和所有我得到的是錯誤「海峽對象沒有屬性'sub'，它有或沒有t做同樣的事情他在代碼中。

到目前爲止沒有任何工作。如何替換每當我去查看mht文件時始終彈出的= \ n。

我使用

a = open('Filename.mht', 'r') 
b = a.read() 
a.close()

來源

2016-12-28 confused

你能告訴我們你用來獲取mht文件的代碼，以及如何打開它嗎？ –

我的答案是否適合你？ –

做str = str.replace("\n","") 爲我工作。所以，如果你

string = '''a href="http://www.= 
google.com/maps?=12= 
3 main st''' 
string = string.replace("\n", "") 

print(string) 
'a href="http://www.=google.com/maps?=12=3 main st'

這應該工作 This post might help, and explain why.

編輯：剛剛測試過的是，它的工作。

來源

2016-12-28 18:02:51

我想我找到了解決辦法。 .read（）引起了問題，但不知道爲什麼。我將它更改爲readlines（），然後將字符串重新組合在一起，並且現在只用一個小例外就可以正常工作，總得討厭'。'。當你試圖重新找到...至少我認爲這是導致該程序現在掛斷的原因。

來源

2016-12-28 19:32:37 confused

你還需要幫助嗎？ –

在mht文件中替換\ n

回答

相關問題