這個問題涉及到計算和中文知識。 我有中文查詢,我有一個單獨的中文短語列表,我需要能夠找到哪些這些查詢有這些短語。標記和模式匹配如何在中文中起作用?
在英語中,這是一個非常簡單的任務。我根本不懂中文,語義,語法規則等,如果這個論壇裏有人懂中文,可以幫助我瞭解一些基本的知識,以及如何爲中文做模式匹配。
我有一個基本認識,中文一個單位(中間沒有空格)實際上可以表示多於一個單詞(這是否正確?)。那麼是否有任何規則說明如何將多個單詞結合起來作爲一個單元。這是令人困惑的,因爲中文寫作有空間,即使沒有空間的單位也有不止一個單詞。
這一現象從計算的角度,模式匹配等是非常有用的解釋中國的任何鏈接..
中的「主題突出」不明白:空格僅用於標點符號? – xyz
一個漢字是*不*相當於一個英文單詞;許多單詞由兩個字符組成,如「guo1ji4」,「國際」。另外,一箇中文字符可能意味着不同的周圍字符(依賴於上下文)。 –
用戶名:) +1 –