我正在使用node natural tokenizer功能,它將句子拆分爲單詞。通常它應該工作作爲如何避免自然爲node.js分裂具有特殊字符的單詞
var natural = require('natural'),
tokenizer = new natural.WordTokenizer();
console.log(tokenizer.tokenize("your dog has't flees."));
// Returns [ 'your', 'dog', 'has', 'n't, 'flees' ]
它工作正常,但是,與德語或法語單詞時,它分裂了的話一分爲二,如
var natural = require('natural'),
tokenizer = new natural.WordTokenizer();
console.log(tokenizer.tokenize("fußball"));
// Returns ['fu', 'ball']
這是不正確的。
任何人都知道如何避免這種情況?
或者你也許知道一個簡單的方法來將句子拆分成JavaScript/Node.js中的單詞?
謝謝!
刪除標點你不想使用正則表達式然後'sentence.split('');'? – Andy
但我在談論特殊重音字符,如ß,ç等。標點符號沒有問題。 –
http://jsfiddle.net/andyuws/Gk9jn/1/,'split'可以正常工作,但是你會想要刪除全站和逗號就是我所說的。 – Andy