utf-16

    2熱度

    1回答

    我面臨一個大的(〜18 GB)文件,從SQL Server導出爲Unicode文本文件,這意味着它的編碼是UTF-16(小端)。該文件現在存儲在運行Linux的計算機上,但我還沒有想出將其轉換爲UTF-8的方法。 起初我試過使用iconv,但文件太大了。我的下一個方法是逐個使用拆分和轉換文件,但這也不起作用 - 轉換過程中出現很多錯誤。 那麼,有關如何將其轉換爲UTF-8的任何想法?任何幫助都感激

    16熱度

    1回答

    出於某種原因,我無法找到我的utf16文件。它產生'UnicodeException:UTF-16流不以BOM開始「。我的代碼: f = codecs.open(ai_file, 'r', 'utf-16') seek = self.ai_map[self._cbClass.Text] #seek is valid int f.seek(seek) while True: ln =

    3熱度

    3回答

    我想知道是否有已知的方法來檢測(或給出最佳猜測)Java中特定字符串的編碼。 我知道你總是需要一些額外的元數據來告訴編碼是什麼,並且有最佳實踐等,但是我處於這種情況,我需要給出最好的近似值。 解決方案 - 或指針 - 以編程方式區分UTF-8和UTF-16也是受歡迎的。

    2熱度

    2回答

    我確定這很容易,但是我將所有這些反斜槓都綁在一起。 我有一些數據,我從網站上刮(禮貌地)。偶爾會有一句話給我看起來像這樣: u00a362 000? you must be joking 這當然應該是'£2 000?你一定是在開玩笑'。在irb的一個簡短的測試破譯了它。 ruby-1.9.2-p180 :001 > string = "u00a3" => "u00a3" ruby-

    2熱度

    2回答

    我使用文本編輯MacOSX上創建兩個文件,以不同的編碼相同的內容,然後 的grep XXX filename_UTF-16 什麼 的grep XXX filename_UTF-8 xxxxxxx xxxxxxyyyyyy grep不支持UTF-16?

    8熱度

    2回答

    Google App Engine使用Python 2.5.2,顯然在啓用UCS4的情況下。但GAE數據存儲在內部使用UTF-8。所以,如果你存儲U '\ ud834 \ udd0c'(長2)到數據存儲,當你找回它,你會得到 '\ U0001d10c'(長度爲1)。我試圖在存儲它之前和之後給出相同結果的方式來計算字符串中的Unicode字符數。所以我想,我接受它,計算它的長度,並把它的數據存儲之前

    1熱度

    1回答

    我有一個Localized.strings(UTF-16)文件,其中包含一些用於生成文件名的字符串。我用python打開文件codecs.open("Localized.strings", "r", "utf-16") 這些文件已成功創建,但帶有'?'添加到文件名的末尾,例如: MainMenu.strings? - 「?」是從我以前的編碼徘徊。 我試過filename_string.encode

    0熱度

    1回答

    我有一個csv文件,它是utf-16,包含淡米色字符,並且在我查看它時顯示正常。我將它讀入我的iphone/ipad程序並從中創建一個核心數據庫。我遇到的問題是,信息以另一個字符集的形式存儲在覈心數據庫中。如何在從csv構建數據庫時指定使用UTF16StringEncoding?這裏是我的加載方法: - (void)setupQuestions { NSString *paths = [[NSB

    1熱度

    2回答

    我試圖將Unicode標題添加到MP3的ID3標籤(V2.3)。不幸的是,我無法弄清楚如何去做。根據id3.org's id3v2 page,Unicode字符串必須以Unicode BOM開頭。 我目前正試圖ID3V2,但標籤保存爲亂碼。 我想做到這一點的紅寶石,但Linux工具也是可以接受的。 更新: 我想通了,使用id3lib-ruby寶石的解決方案。它列在下面。

    1熱度

    3回答

    我有一個字段從UTF-8頁刮: "O’Reilly" ,並保存在一個YML文件: :name: "O\xE2\x80\x99Reilly" (xE2x80x99是correct UTF-8 representation of this apostrophe) 然而,當我值加載到一個哈希,它屈服於標記爲UTF-8的頁面時,我得到: OâReilly 我查了字符â,它以UTF-16編碼爲x