我想使用python將unicode轉換爲拉丁字符,我有一個大的文本文件,其中包含unicode和所有的tweet。我只想替換4個unicode,比如\ u00f6,\ u015f,.. 我只是想知道tweet是如何被實際推送的(原始語言)。這裏是實際收集推文並保存到文本文件中的代碼。 「#!/ usr/bin/python如何將unicode轉換爲拉丁字符python
*編碼:ISO 8859-9 _ * _....」我得到這個錯誤「 21,但沒有聲明編碼;見http://www.python.org/peps/pep-0263.html細部」
class listener(StreamListener):
def on_data(self,data):
try:
dirty = open('turkeyjson28.txt','a')
encode = data.encode('ascii','ignore')
dirty.write(encode)
good = tweet.decode("utf-8") """
better = good.decode("utf=8").replace(u"\u00f6", "ö")
print better
dirty.write('\n')
dirty.close()
tweet = data.split(',"text":"')[1].split('","source')[0]
#saveThis = str(time.time())+'::'+tweet
saveFile = open('turkey_clean28.txt','a')
saveFile.write(better)
saveFile.write('\n')
saveFile.write('\n')
saveFile.close()
return True
except BaseException, e:
print 'failed ondata,',str(e)
time.sleep(5)
def on_error(self, status):
print status
auth = OAuthHandler(ckey,csecret)
auth.set_access_token(atoken,asecret)
twitterStream = Stream(auth,listener())
twitterStream.filter(track = ["turkey"])
'.encode(「latin1」)'可能是你在找的東西......但它很難說......它會是tter如果你簡化你的問題,只是用一個硬編碼的字符串調用'on_data'不工作,你想如何...使用utf8更常見,雖然 – 2014-09-29 18:26:06
謝謝,但沒有幫助 – 2014-09-29 20:23:46