2016-12-28 68 views
1

我試圖打開並處理mht文件並刮掉經銷商位置數據。每當我遇到一個HTML格式「棘手」的網站時,我總是會遇到同樣的問題。事實證明:在mht文件中替換 n

A HREF = 「http://www.google.com/maps?s=123主要ST」 ......

a href="http://www.= 
google.com/maps?=12= 
3 main st" 

什麼我有迄今爲止嘗試過沒有努力把這條線帶回原來的自我。我仍然無法將地址關閉。

a = a.replace(r'=\n', '') 

a = a.replace(r'\n', '') 

甚至試過,

a = a.replace(r'[0D]', '') 

和剛剛試過,

a = a.sub(r'\n', '') 

和所有我得到的是錯誤「海峽對象沒有屬性'sub',它有或沒有t做同樣的事情他在代碼中。

到目前爲止沒有任何工作。如何替換每當我去查看mht文件時始終彈出的= \ n。

我使用

a = open('Filename.mht', 'r') 
b = a.read() 
a.close() 
+0

你能告訴我們你用來獲取mht文件的代碼,以及如何打開它嗎? –

+0

我的答案是否適合你? –

回答

0

str = str.replace("\n","") 爲我工作。所以,如果你

string = '''a href="http://www.= 
google.com/maps?=12= 
3 main st''' 
string = string.replace("\n", "") 

print(string) 
'a href="http://www.=google.com/maps?=12=3 main st' 

這應該工作 This post might help, and explain why.

編輯:剛剛測試過的是,它的工作。

0

我想我找到了解決辦法。 .read()引起了問題,但不知道爲什麼。我將它更改爲readlines(),然後將字符串重新組合在一起,並且現在只用一個小例外就可以正常工作,總得討厭'。'。當你試圖重新找到...至少我認爲這是導致該程序現在掛斷的原因。

+0

你還需要幫助嗎? –