我試圖讀取使用MATLAB波蘭樹庫的下列XML文件:http://zil.ipipan.waw.pl/Sk%C5%82adnica?action=AttachFile&do=view&target=Sk%C5%82adnica-frazowa-0.5-TigerXML.xml.gzMATLAB:讀取HTML的代碼(XML內)
波蘭字母似乎被編碼爲HTML碼:http://webdesign.about.com/od/localization/l/blhtmlcodes-pl.htm
例如,ł
代表'ł'。如果我用打開的樹庫「UTF-8」,我得到這樣kłaniał
的話,這實際上應顯示爲數k ł阿尼亞ł'
現在,我看到2個選項正確讀取的樹庫:
- 直接讀取XML文件,以便將HTML代碼轉換爲相應的字符。
- 首先以非解碼格式保存文字(例如
kłaniał
),然後再轉換文字。
是否有可能在MATLAB中執行2個選項之一(或兩者)?
你試過[xmlread](http://de.mathworks.com/help/matlab/ref/xmlread.html)嗎?對我來說,它會自動忽略這些角色。 – swenzel
你可以在這裏下載我想要分析的樹庫:http://zil.ipipan.waw.pl/Sk%C5%82adnica?action=AttachFile&do=view&target=Sk%C5%82adnica-frazowa-0.5-TigerXML。 xml.gz 我嘗試過'xmlread'。不幸的是,xml文件太大,無法用該函數打開,所以我使用'fopen'。 –