我想讀取一個文本文件,該文件具有Instagram公開發布的圖像及其元數據。每行都有一個完整的帖子以及所有的元數據。圖片文章的某些部分用阿拉伯文編寫。當我使用Python讀取文件時,但打印行後不顯示阿拉伯語文本。 阿拉伯文字顯示爲等\ xd9 \ x8a \ XD8閱讀Python中具有英文和阿拉伯文本的文本文件
這是代碼剪斷我使用從.txt文件
test_file = codecs.open('instagram_info.txt', mode='r', encoding='utf-8')
print ("reading images URLs file")
counter = 0
for line in test_file:
print("Line: ", line.encode("utf-8"))
counter += 1
print(counter)
if counter == 50:
break
test_file.close()
這是從文本文件中的一行例如閱讀
100158441 25.256887893 51.507485363 Centerpoint 4f09c7a6e4b090ef234993e3 http://scontent.cdninstagram.com/hphotos-xpa1/outbound-distilleryimage9/t0.0-17/OBPTH/9ecde7ecac7811e3b87a12bcaa646ac5_8.jpg sarrah80 25.256887893 51.507485363 2014-03-15 19:37:45 1394912265 16144 ولا راضي يوقف يم الارنوب عشان اصوره dody_nasser said "هههه اكيد خايف الجبان " nassersahim said "@sarrah80 يبغي يملغ عليكم" sarrah80 said "@dody_nasser بطل ولدي بس خبرج المود ومايسوي" sarrah80 said "@nassersahim انت شفت الأرنب شلون يطالعه ذبحني من الضحك " arwa9009 said "حياتي" fatimaaljasssim said "حياتتتتتتتنتتي عليهم فديتهم" 6 non_al3yooon,mun.mun_almalki,__manoor__,monaalalii 46
此外,當前的代碼將「b'」添加爲正在讀取的每一行的前綴,任何想法爲什麼會發生這種情況?
我想你的提醒@NightShadeQueen,但它給了另一個錯誤見下圖: 回報codecs.charmap_encode(輸入,self.errors,encoding_table)[0] UnicodeEncodeError: '字符映射' 編解碼器不能在位置0編碼字符'\ ufeff':字符映射到 –
有趣。你確定你的輸入是UTF-8而不是UTF-16嗎?請參閱:http:// stackoverflow。com/questions/17912307/u-ufeff-in-python-string – NightShadeQueen
是的,文本文件的編碼是UTF-8 @NightShadeQueen, –