2013-10-11 106 views
0

有了這個代碼,我從BS分析得到以下網址:不當美麗的湯解析

result, data = mail.uid('search', None, "(FROM '[email protected]')") # search and return uids instead 
latest_email_uid = data[0].split()[-1] 
result, data = mail.uid('fetch', latest_email_uid, '(RFC822)') 
raw_email = data[0][1] 

html = raw_email 
soup = BS(html) 

urls=[] 
for x in soup.find_all('a', href=True): 
    urls.append(x['href']) 

print urls 

輸出

'3D"http://elink.tiffany.com/r/YB7DL5S/32FU1/5A6EIF/QFMQOO/6EN2U/52/h"=' 

我怎樣可以去除頭4個和最後3個字符?這是我可以在美麗的湯做什麼,或者我應該使用split()?

回答

1

只需使用str.lstrip()rstrip()。這種方法的缺點是,你將不得不現在想要刪除的東西。

這裏,剝離所有的URL,當你把它們放入一個列表:

urls.append(x['href'].lstrip("'3D\"").rstrip("\"=\'")) 
+0

謝謝!你知道這可以用美麗的湯完成嗎? – metersk

+0

我不知道,但我不這麼認爲。 – aIKid