2012-07-27 20 views
0

我有一個像「亞歷山大Macomb,少年(1782年4月3日,1841年6月25日)是美國陸軍從1828年5月29日指揮將軍到25 1841年6月「。刪除網頁中的特殊錯誤字符時,配對

這些字符(「?」)在網頁中已經出現錯誤。順便說一下,這些字符(「?」)似乎是「 - 」。我如何刪除/更正這些字符。我的意思是,在將網頁內容讀取/加載到java或其他編程語言時,是否有任何方法可以檢測和更正這些字符。

回答

0

這是一個字符編碼問題:某些軟件執行了不正確的字符代碼轉換。沒有關於這種情況的更多細節,如URL,幾乎不可能提出具體的補救措施。但該頁面似乎是http://en.wikipedia.org/wiki/Alexander_Macomb_%28general%29的一些扭曲副本,所以也許你可以使用該頁面。失真顯然包括以某種方式消除EN DASH「 - 」U-2013角色。

+0

無論如何。也許我應該找到原始網頁並從那裏解析它。 – Jun 2012-07-28 05:09:32