我已經安裝了Python 2.7.13,PIP和beautifulsoup上Win10。我想將一個帶有html實體的大文件轉換爲Unicode字符,我不知道如何去做(我對Python不太瞭解)。文件內容是這樣的:轉換HTML實體文件爲Unicode(用BeautifulSoup和Python?)
<b>γέρων</b>, <i>οντος, ὁ</i>, Wurzel <i>ΓΕΡ</i>, verwandt mit <i>γέρας, γεραρός, γεραιός</i>
我可以做小部分用EmEditor中(使用編輯>編碼/解碼選擇 - > HTML/XML字符引用Unicode)的,但實在是太慢了,不能用一個大的應對文件轉換)。
我會很樂意爲這個任意(離線)解決方案。
感謝您的答覆,我需要如何應用到文件中的具體說明。 – greektranslator
好的,回答更新 – eLRuLL