我有一個數據幀,其中包含文章文本的一列_text
。我正在嘗試爲我的數據框中的每一行獲取文章的長度。這裏是我的嘗試:Python 2.7:編碼爲UTF-8時遇到問題
from bs4 import BeautifulSoup
result_df['_text'] = [BeautifulSoup(text, "lxml").get_text() for text in result_df['_text']]
text_word_length = [len(str(x).split(" ")) for x in result_df['_text']]
不幸的是,我得到這個錯誤:
---------------------------------------------------------------------------
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-8-f6c8ab83a46f> in <module>()
----> 1 text_word_length = [len(str(x).split(" ")) for x in result_df['_text']]
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 231: ordinal not in range(128)
好像我應該指定 「UTF-8」 的地方,我只是不知道在哪裏...
謝謝!
嘗試在腳本的開頭使用'# - * - coding:utf-8 - * - '?我不知道它是否有效。 – CunivL
請發佈你的問題中得到的錯誤的fulll回溯。 –
@ mpf82更新! – bclayman