unicode-normalization

    0熱度

    1回答

    我正在研究從Redshift數據庫獲取數據的Django應用程序。寫給這個Redshift數據庫的人做出了一些奇怪的選擇。我想弄清楚如何處理它有串這樣的事實: Let’s play! \xe2\x9a\xbd\xef\xb8\x8f 隨着psycopg2我得到這些進入Python作爲 u'Let\u2019s play! \\xe2\\x9a\\xbd\\xef\\xb8\\x8f' 我應

    0熱度

    1回答

    有沒有辦法把字符轉換,如: É É é à Ç etc 而且這種類型的驚歎號與空間它建於後: ! 到他們的正常版本。目前,我有這樣的代碼: $linesvalue = str_replace(["Ç","ç"],"ç",$linesvalue); $linesvalue = str_replace(["É","É","é"],"é",$linesvalue); $lin

    1熱度

    1回答

    我正在研究處理韓語句子的程序,我需要一種將音節或塊分解爲字母的方法。對於那些不知道韓文的人來說,一個音節由2-4個字母組成(Jamo),創造出數千種不同的組合。我想要做的是將這些音節分解成形成它的字母。 我能夠通過比較其Unicode值與該範圍內的關聯字母來獲得第一個字母,即以x字母開頭的音節位於y範圍內。但是,我發現剩下的字母不知所措。 這是一個包含朝鮮語音節Unicode值的表:http://

    0熱度

    2回答

    我有每行一個字符的兩個文件的差異輸出。有時,「不同」行上的輸出字符在我的終端中看起來相同。我想通過一個可以將字節值(甚至可能是unicode代碼點)添加到輸出的函數來管理diff輸出,以便我可以看到實際的字節差異。 我無法搞清楚如何獲得猛砸字符的字節值。有沒有辦法做到這一點?我看到各種關於走向另一個方向的答案,但我想從字符到字節值。

    -3熱度

    1回答

    我正在與一個遠程應用程序似乎做一些神奇的編碼。應用程序呈現明確的響應(我將其稱爲True和False),具體取決於用戶輸入。我知道兩個有效的值,這將會呈現'真',所有其他值都應該是'假'。 我發現(意外)有趣的是,提交損壞的值導致'真'。 示例輸入: USER10 //gives True USER11 //gives True USER12 //gives False USER.. //g

    0熱度

    2回答

    我已經通過在堆棧溢出類似的問題閱讀,但他們不解決unicode的問題,我有:在位置302 「ASCII」編解碼器不能解碼字節0xc3曾嘗試: 進口SYS 重裝( SYS) sys.setdefaultencoding函數( 「UTF-8」),然而 收到一個錯誤:NameError:名字 '刷新' 沒有定義 我嘗試讀取文件與丹麥元音:æ,O,A。作爲回報,接收'UnicodeDecodeError:

    3熱度

    2回答

    我試圖讓這個JSON URL的內容: http://www.der-postillion.de/ticker/newsticker2.php 問題似乎是的「文本」的內容中使用Unicode。 每次我嘗試獲取json_decode時,它都會失敗,並且沒有NULL ...以前從未遇到過這個問題。總是拉這樣的json: $news_url_postillion = 'http://www.der-pos

    1熱度

    1回答

    我正在接收UTF-8中的xml文檔,其中分解的diacretics。直到現在,我只是讀取這些值並將它們保存到我的postgreSQL數據庫中,而沒有做任何修改或轉換(psotgreSQL參數:SERVER_ENCODING = UTF8,LC_COLLATE = German_Germany.1252)。 現在我發現,當搜索對於喜歡「Wüste」的值時手動輸入它(HEX:57 C3 BC 73 7

    0熱度

    1回答

    我使用Java的Runtime.getRuntime().exec(字符串命令)打開指定文件的Windows文件資源管理器。對於我使用的命令: 探險pathToOpen 這適用於幾乎所有的時間,除非路徑中包含一些Unicode字符,過多的NFD(規範化表標準分解)規範化的形式。 我來舉個例子吧。我有以下命令: 資源管理器C:\測試\文件夾 我擁有所有「C盤」,「測試」,並在我的本地文件系統「文件夾

    13熱度

    3回答

    我需要從西班牙語和其他語言的字符中刪除不同數據集中的重音符號。 我已經根據此post中提供的代碼執行了刪除特殊口音的功能。問題是該函數速度慢,因爲它使用UDF。 我只是想知道如果我可以改善我的功能的性能,以更少的時間獲得結果,因爲這對小數據框很好,但對於大數據框不好。 在此先感謝。 這裏的代碼,你就可以運行它,因爲它提出: # Importing sql types from pyspark.s