我在泰盧固語腳本,其unicode的範圍是工作0C01-0C7F u能解釋如何(從that問題更新複製)發現在想知道如何獲得泰盧固語腳本中的音節
音節
我能夠對字符進行分類,但在泰盧固語腳本中,一個音節可能包含一個或多個字符,並且當從文件中檢索字符時,音節被分割並且無法將它們合併,所以請幫助我瞭解泰盧固語腳本文本分類
我在泰盧固語腳本,其unicode的範圍是工作0C01-0C7F u能解釋如何(從that問題更新複製)發現在想知道如何獲得泰盧固語腳本中的音節
音節
我能夠對字符進行分類,但在泰盧固語腳本中,一個音節可能包含一個或多個字符,並且當從文件中檢索字符時,音節被分割並且無法將它們合併,所以請幫助我瞭解泰盧固語腳本文本分類
我不說泰盧固語(對不起! ),但我確實明白這是一個音節性的語言,音節由元音(「achchu」)和輔音(「hallu」)組成。因此,正如wikipedia所解釋的那樣,你最終會得到「六十個符號,其中16個是元音,三個元音修飾符和四十一個輔音」。 This page顯示Unicode對應關係:元音是0C05到0C14(還有0C60和0C61,「聲樂」RR和LL);輔音是0C15到0C39;其他代碼是許多「標誌,標點符號,數字」等等。
一個可能的音節完整的表格在this PDF,但我承認劇本是扔我了,因爲我有麻煩告訴什麼是什麼。如果你說泰盧固語,或者很容易接觸到那些做過的人,那麼你將會是一個更好的地方,告訴我如何從泰盧固語字符流中雕刻出音節,而不是我。 Python與它沒有多大關係 - 它只是一種編程語言,它可以讓你實現任何你需要的音節決定的算法,但是它絕對沒有內置的這樣的算法! - )
在泰盧固語,形成在幾個方面
如果您正在使用英語腳本音譯爲泰盧固語(如谷歌音譯工具),它是可能的許多英文字符形成只是一個音節。
考慮「stree」(在谷歌音譯工具中輸入此內容),這在泰盧固語中只形成一個音節。您可以在http://rishida.net/tools/analysestring/index.php?list =地點分析該泰盧固語字符串以瞭解泰盧固音節是如何形成的。
你有兩種選擇的2解決這個問題
[1]找出代碼點序列,如果您的輸入是在泰盧固語腳本。並且基於元音結束和新的syllalbe開始的時候對代碼點序列進行分組。
[2]如果你的輸入是英文的,它映射到泰盧固語字符,那麼你需要弄清楚什麼時候把序列分成多個音節。