2009-10-31 30 views
1

我在泰盧固語腳本,其unicode的範圍是工作0C01-0C7F u能解釋如何(從that問題更新複製)發現在想知道如何獲得泰盧固語腳本中的音節

音節

我能夠對字符進行分類,但在泰盧固語腳本中,一個音節可能包含一個或多個字符,並且當從文件中檢索字符時,音節被分割並且無法將它們合併,所以請幫助我瞭解泰盧固語腳本文本分類

回答

2

我不說泰盧固語(對不起! ),但我確實明白這是一個音節性的語言,音節由元音(「achchu」)和輔音(「hallu」)組成。因此,正如wikipedia所解釋的那樣,你最終會得到「六十個符號,其中16個是元音,三個元音修飾符和四十一個輔音」。 This page顯示Unicode對應關係:元音是0C05到0C14(還有0C60和0C61,「聲樂」RR和LL);輔音是0C15到0C39;其他代碼是許多「標誌,標點符號,數字」等等。

一個可能的音節完整的表格在this PDF,但我承認劇本是扔我了,因爲我有麻煩告訴什麼是什麼。如果你說泰盧固語,或者很容易接觸到那些做過的人,那麼你將會是一個更好的地方,告訴我如何從泰盧固語字符流中雕刻出音節,而不是我。 Python與它沒有多大關係 - 它只是一種編程語言,它可以讓你實現任何你需要的音節決定的算法,但是它絕對沒有內置的這樣的算法! - )

2

在泰盧固語,形成在幾個方面

  • V中的音節(在字中的獨立形式的開頭)
  • C + V(在從屬形式輔音+元音)
  • C + C + V(輔音+輔音+元音)
  • C + C + C + V輔音+輔音+元音)

如果您正在使用英語腳本音譯爲泰盧固語(如谷歌音譯工具),它是可能的許多英文字符形成只是一個音節。

考慮「stree」(在谷歌音譯工具中輸入此內容),這在泰盧固語中只形成一個音節。您可以在http://rishida.net/tools/analysestring/index.php?list =地點分析該泰盧固語字符串以瞭解泰盧固音節是如何形成的。

你有兩種選擇的2解決這個問題

[1]找出代碼點序列,如果您的輸入是在泰盧固語腳本。並且基於元音結束和新的syllalbe開始的時候對代碼點序列進行分組。

[2]如果你的輸入是英文的,它映射到泰盧固語字符,那麼你需要弄清楚什麼時候把序列分成多個音節。

相關問題