我想要做的事: 我從數據庫中獲取URI列表並下載它們, 去除停用詞和計數這樣的詞語出現在頻率 然後嘗試保存在mongodb中。蟒蛇 - 從網站識別字符編碼
問題: 當我試圖將結果保存在數據庫中,我得到了錯誤 bson.errors.invalidDocument:該文件必須是有效的UTF-8
這似乎是有關當我正在處理網頁時,代碼'\ xc3someotherstrangewords','\ xe2something' 我嘗試刪除標點符號,但無法刪除重音符號,因爲我會得到一個錯誤的詞。
我已經嘗試過 我試圖通過從網頁 我試圖利用在chardet
利用re.compile(R「[^ A-ZA頭識別的字符編碼-Z]「)和/或unicode(變量,'ascii','忽略');
對非英語語言不利,因爲它們刪除了重音符號。
我想知道的是:
人知道如何識別字符,並轉換成正確的字/編碼?
例如從網頁「\ XE2」得到這個和翻譯爲「A」
(英語不是我的第一語言,所以請原諒我) 編輯:如果有人想看到source code
你真的想讀[Python的Unicode指南(http://docs.python.org/2/howto/unicode.html)和[喬爾上Unicode上的軟件](http://www.joelonsoftware.com/articles/Unicode.html)。不知道網站使用的編碼是什麼,這很難回答。 – 2013-02-25 18:43:28
我以前見過Python Unicode Howto,但是謝謝,我會看看Joel的文章。 – raphaeljlps 2013-02-25 21:10:14