替換字符串的所有實例的字符串的Python

現在我的輸出到一個文件是這樣的：替換字符串的所有實例的字符串的Python

<b>Nov 22Â–24</b> <b>Nov 29Â–Dec 1</b> <b>Dec 6Â–8</b> <b>Dec 13Â–15</b> <b>Dec 20Â–22</b> <b>Dec 27Â–29</b> <b>Jan 3Â–5</b> <b>Jan 10Â–12</b> <b>Jan 17Â–19</b> <b><i>Jan 17Â–20</i></b> <b>Jan 24Â–26</b> <b>Jan 31Â–Feb 2</b> <b>Feb 7Â–9</b> <b>Feb 14Â–16</b> <b><i>Feb 14Â–17</i></b> <b>Feb 21Â–23</b> <b>Feb 28Â–Mar 2</b> <b>Mar 7Â–9</b> <b>Mar 14Â–16</b> <b>Mar 21Â–23</b> <b>Mar 28Â–30</b>

我想刪除所有「A」和CSS標籤（< B>，</B>）。我嘗試過使用卸下襬臂和.replace功能，但我得到一個錯誤：

SyntaxError: Non-ASCII character '\xc2' in file -- FILE NAME-- on line 70, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

上面的輸出是一個列表，這是我從一個webcrawling功能得到：

def getWeekend(item_url): 
    dates = [] 
    href = item_url[:37]+"page=weekend&" + item_url[37:] 
    response = requests.get(href) 
    soup = BeautifulSoup(response.content, "lxml") # or BeautifulSoup(response.content, "html5lib") 
    date= soup.select('table.chart-wide > tr > td > nobr > font > a > b') 
    return date

我把它寫入一個像這樣的文件：

for item in listOfDate: 
    wr.writerow(item)

如何刪除所有標籤，以便只剩下日期？

來源

2015-06-27 alphamonkey

什麼是頁面編碼？ –

你已經有了一個有效的解決方案，但對於未來：

使用get_text()擺脫標籤

date = soup.select('table.chart-wide > tr > td > nobr > font > a > b').get_text()

使用.replace(u'\xc2',u'')擺脫Â的。 u使得u'\xc2'是一個unicode字符串。（這可能需要一些把玩周圍的編碼，但對我來說get_Text()已經返回一個Unicode對象。）

（此外，可能是考慮.replace(u'\u2013',u'-')，因爲現在，你有一個短破折號：P）

date = date.replace(u'\xc2',u'').replace(u'\u2013',u'-')

來源

2015-06-27 22:45:43 NightShadeQueen

我不確定，但我認爲aString.regex_replace（'toFind'，'toReplace'）應該可以工作。或者將它寫入文件，然後在其上運行sed：sed -i's/toFind/toReplace/g'

來源

2015-06-27 21:48:25

謝謝，我只是使用Excel的查找和替換功能，只是試了一下，它的超級簡單。 – alphamonkey

問題是您沒有從網站獲取ASCII字符串。您需要將非ASCII文本轉換爲Python在處理它之前可以理解的內容。

Python在給定機會時將使用Unicode。如果你只是看一看，那裏有很多信息。例如，你可以找到其他問題本網站上更多的幫助：

Python: Converting from ISO-8859-1/latin1 to UTF-8

python: unicode in Windows terminal, encoding used?

What is the difference between encode/decode?

來源

2015-06-27 22:15:00

如果你的Python 2源代碼有文字非ASCII字符，如Â那麼你應該爲錯誤消息指出聲明的源代碼編碼。把你的Python文件的頂部：

# -*- coding: utf-8 -*-

確保文件被保存使用UTF-8編碼和使用Unicode字符串與文本的工作。

來源

2015-06-27 23:04:53 jfs

如果你是一個比emacs更多的VIm用戶，你可以把它放在頂端：''＃vim：set fileencoding = utf8：''。 – bufh

@bufh：Python只要匹配['「coding [：=] \ s *（[ - \ w。] +）」'正則表達式] [https://www.python.org/開發/ PEPS/PEP-0263 /）。 – jfs

替換字符串的所有實例的字符串的Python

回答

相關問題