0
所以首先,我不是在談論蟒蛇html2text但該命令行工具:http://www.mbayer.de/html2text/html2text:轉換特殊字符
我使用這個工具,我PROGRAMM的一部分,以產生一些小的文本預覽爲HTML文章。 到現在爲止,這是我使用的線路:
html2text -utf8 -nobs -style pretty filename.html
不幸的是我現在對面即是使用像
ä
這些特殊字符不被轉換爲「A」的HTML代碼來了,甚至「ae」像預期的那樣。
例如行:
<p class="caption">Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt. </p>
應轉換爲:
Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt.
但在這裏會產生這條線來代替:
Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt.
文檔說:
默認情況下,當提供-nometa,html2text使用ISO 8859-1的輸入。指定此選項,UTF-8來代替(包括用於輸入和輸出)。
所以我試着不用「-utf8」並使用「-nometa」。但是還是一樣的結果:( 我失去了一個選擇嗎?
THX對您的幫助提前。
該文檔還寫着「HTML 4的大部分結構都renderred [原文],以及包括最SGML實體,只要它們寫成‘命名實體’,而不是一個數值」,這表明這是一個已知的限制。 –