我正在嘗試使用正則表達式將單詞拆分爲單詞。如何在C中使用正則表達式將短語拆分爲單詞#
var phrase = "This isn't a test.";
var words = Regex.Split(phrase, @"\W+").ToList();
詞包含 「這」, 「ISN」, 「T」, 「A」, 「測試」
顯然,這是撿了上撇號和分裂。我可以改變這種行爲嗎?它還需要支持多種語言(西班牙文,法文,俄文,韓文等)。
我需要將單詞傳遞給拼寫檢查器。具體Nhunspell。
return (from word in words let correct = _engine[langId].Spell(word) where !correct select word).ToList();
嘗試在空間上拆分?你有很好的用例來證明這個正則表達式需要處理什麼? – mellamokb 2012-04-20 02:41:24
我傳遞到了一個拼寫檢查的話,所以我需要減肥的標點符號。 – Dean 2012-04-20 02:45:28
由於要分割爲多個不同的語言,你需要使用哪個懂一門語言一個標記。在你的例子中,不明確是一個詞,但在另一種語言中,'通常可能不是該詞的一部分。因此大多數拼寫檢查庫都附帶Tokenizer或Parser,它們可以爲您完成這項工作。 – jessehouwing 2012-04-20 09:28:05