2012-05-19 20 views
4

我正在研究一個小愛好Python項目,該項目涉及使用該語言編寫的大型文本體創建各種語言的字典。對於大多數語言來說,這是相對直接的,因爲我可以使用單詞之間的空格分隔符將段落標記爲字典中的單詞,但是例如,中文不在單詞之間使用空格字符。我怎樣才能將一段中文文字轉化爲文字?是否有現成的庫或api可用於分隔基於字符的語言中的單詞?

我的搜索發現這是一個有點複雜的問題,所以我想知道是否有現成的解決方案在Python或其他語言通過api或任何其他語言解決此問題。這一定是一個常見問題,因爲任何用於亞洲語言的搜索引擎都需要克服這個問題才能提供相關結果。

我試圖用Google進行搜索,但我甚至不確定這種類型的標記被調用,所以我的結果沒有找到任何東西。也許只是向正確的方向推動會有幫助。

+0

[如何對不使用空白作爲分隔符的語言(如中文)進行Python split()的重複操作?](http://stackoverflow.com/questions/3797746/how-to-do -a-python-split-on-languages-like-chinese-that-dont-use-whtespace) –

+1

同時檢查該問題的已刪除答案中提供的鏈接:http://alias-i.com/lingpipe/demos /tutorial/chineseTokens/read-me.html –

+0

@NiklasB .:我不這麼認爲。您發佈的問題的OP是尋找一種將字符串拆分爲字符的方法。然而,Mark Bryer在那篇文章中的回答看起來似乎有所幫助。 –

回答

3

語言標記化是自然語言處理(NLP)的一個關鍵方面。這對於大型企業和大學來說是一個巨大的話題,並且一直是許多博士論文的主題。

我剛剛提交了一個編輯到您的問題添加'nlp'標記。我建議你看一下'nlp'標籤的「about」頁面。您可以找到諸如Natural Language Tool Kit之類的網站的鏈接,其中包括一個基於Python的分詞器。

您還可以搜索谷歌,例如:「語言標記化」和NLP。

相關問題