0
我想下面的網站
http://www.rasekhoon.net/media/3882/page1/
HTML的代碼,我用下面的代碼如何調試urllib2和阿拉伯語言的錯誤?
file = urllib2.urlopen("http://www.rasekhoon.net/media/3882/page1/")
string= file.read()
得到它,當我打印
<div class="header" title="ظپط§غŒظ„ظ‡ط§غŒ ط³ط¹غŒط¯ طط¯ط§ط¯غŒط§ظ†/ط³ط§ظ„ 1389 ط¨ط§ ظ…ظˆط¶ظˆط¹ 'ظ…غŒظ„ط§ط¯ طط¶ط±طھ ط²ظ‡ط±ط§ ط¹ظ„غŒظ‡ط§ ط§ظ„ط³ظ„ط§ظ…'">
<em>ظپط§غŒظ„ظ‡ط§غŒ ط³ط¹غŒط¯ طط¯ط§ط¯غŒط§ظ†/ط³ط§ظ„ 1389 ط¨ط§ ظ…ظˆط¶ظˆط¹</em>
ظ…غŒظ„ط§ط¯ طط¶ط±طھ ط²ظ‡ط±ط§ ط¹ظ„غŒظ‡ط§ ط§ظ„ط³ظ„ط§ظ…
</div>
<div class="content richcontent" style="display:none;">
我想下面的結果
<div class="header" title="فایلهای سعید حدادیان/سال 1389 با موضوع 'مناجات'">
<em>فایلهای سعید حدادیان/سال 1389 با موضوع</em>
مناجات
</div>
<div class="content richcontent" style="display:none;">
我該如何修復它?
「我該如何修復它?」問題很不明顯。 – Marcin
@Marcin:我懷疑輸出是UTF-8的Latin-1解釋。 –
@ Marcin ok我更新了我的問題 –