我正在嘗試編寫一個程序來解析一系列HTML文件,並將結果數據存儲在.csv電子表格中,這令人難以置信地依賴於換行符恰到好處。我已經嘗試了我可以找到的每一種方法去除某些文本片段的斷行,但都無濟於事。相關代碼如下所示:無法從BeautifulSoup文本輸出中刪除換行符(Python 2.7.5)
soup = BeautifulSoup(f)
ID = soup.td.get_text()
ID.strip()
ID.rstrip()
ID.replace("\t", "").replace("\r", "").replace("\n", "")
dateCreated = soup.td.find_next("td").get_text()
dateCreated.replace("\t", "").replace("\r", "").replace("\n", "")
dateCreated.strip()
dateCreated.rstrip()
# debug
print('ID:' + ID + 'Date Created:' + dateCreated)
而產生的代碼看起來是這樣的:
ID:
FOO
Date Created:
BAR
這並用相同的程序一直在推動我逼瘋了另一個問題。幫助將是太棒了。謝謝。
編輯:想通了,這是一個非常愚蠢的錯誤。而不是僅僅做
ID.replace("\t", "").replace("\r", "").replace("\n", "")
我應該做的
ID = ID.replace("\t", "").replace("\r", "").replace("\n", "")
嘗試打印'repr(ID)'來查看可能存在哪些字節?否則,也許嘗試字符串格式而不是串聯? –
打印編號(ID)和編號(dateCreated)給了我u'\ nFOO \ n' u'\ nBAR \ n'。我已經嘗試將替換設置爲(u「\ n」,u「」),但這並沒有做任何事情。 –