我想檢測文本中的單詞,即我需要知道給定文本中的哪些字符是字母,也就是說它們可以是(說出的)單詞的一部分,另一方面是標點符號等。如何判斷哪些unicode字符是字母(單詞)還是標點符號?
例如,在上述句子中,「I」,「want」,「i」和「e」是這方面的詞,而空格「。」和逗號不是。
這樣做的困難在於我希望能夠讀取任何基於Unicode的腳本。例如,德語單詞「schön」是一個單詞。但是希臘,阿拉伯或日本呢?
所以,我需要的是一個表或列表,指定可以形成單詞的所有字符範圍。可選地,我也想知道哪些字符是可以形成數字的數字(假設其他腳本具有與阿拉伯數字相似的編號方案)。
我需要這個用於Mac OS X,Windows和Linux。我會編寫一個C應用程序,因此它需要是一個操作系統庫或一個完整的代碼/數據解決方案,我可以將其轉換爲C.我知道Mac OS(Cocoa)提供了用於此目的的功能,不過我不確定是否有類似的Win和Linux解決方案(基於gtk,可能?)。
另外,如果我有完整的表格,我可以編寫自己的代碼。
我發現了Unicode圖表(http://unicode.org/charts/index.html#scripts),但這並不是我可以在編程中使用的一種方便的形式。
那麼,有人能告訴我是否有Windows和Linux的功能,或者我可以在unicode中找到一個完整的表格/字符列表?
什麼語言(S)? – 2010-02-11 23:00:27