2011-10-02 44 views
10

這個問題涉及到計算和中文知識。 我有中文查詢,我有一個單獨的中文短語列表,我需要能夠找到哪些這些查詢有這些短語。標記和模式匹配如何在中文中起作用?

在英語中,這是一個非常簡單的任務。我根本不懂中文,語義,語法規則等,如果這個論壇裏有人懂中文,可以幫助我瞭解一些基本的知識,以及如何爲中文做模式匹配。

我有一個基本認識,中文一個單位(中間沒有空格)實際上可以表示多於一個單詞(這是否正確?)。那麼是否有任何規則說明如何將多個單詞結合起來作爲一個單元。這是令人困惑的,因爲中文寫作有空間,即使沒有空間的單位也有不止一個單詞。

這一現象從計算的角度,模式匹配等是非常有用的解釋中國的任何鏈接..

+0

中的「主題突出」不明白:空格僅用於標點符號? – xyz

+2

一個漢字是*不*相當於一個英文單詞;許多單詞由兩個字符組成,如「guo1ji4」,「國際」。另外,一箇中文字符可能意味着不同的周圍字符(依賴於上下文)。 –

+0

用戶名:) +1 –

回答

10

我有一個基本的看法是,在中國的一個單位(沒有之間的任何空間)實際上意味着多於一個單詞(這是否正確?)。

在中國的空間都很少使用,例如:

遞歸(英語:Recursion),又譯爲遞迴,在數學與計算機科學中,是指在函數的定義中使用函數自身的方法遞歸一詞還較常用於描述以自相似方法重複事物的過程。例如,當兩面鏡子相互之間近似平行時,鏡中嵌套的圖像是以無限遞歸的形式出現的。

你會注意到什麼似乎是空格,實際上只是中文標點符號,其中只有比平常更多的填充。

因此,是否有任何規則如何超過一個單詞結合起來作爲一個單位。這是令人困惑的,因爲中文寫作有空間,即使沒有空間的單位也有不止一個單詞。

想想這樣:一個漢字是非常非常粗略的類似於一個英文單詞。通常需要將兩個或更多字符組合形成一個單詞,並且每個單獨的字符可能意味着根據上下文完全不同的內容。

爲了有意義地標記中文文本,您必須對考慮到的字詞進行細分。

查看Chinese Natural Language Processing and Speech Processing,來自斯坦福NLP組。

+0

而downvote是爲了? – NullUserException

+0

這個downvote不是我的。我發現你的迴應非常有用:-) – xyz

+0

也許從你編輯之前,包括我在我的評論中說的東西;在編輯之前,這是一個人。 –