我正在開發輔助和替代通信(AAC)程序。我目前的目標是存儲輸入/說出文本的歷史記錄,並搜索常用短語片段或單詞n-gram。我正在使用基於lzw壓縮算法的實現,如CodeProject - N-gram and Fast Pattern Extraction Algorithm所述。儘管生成n-gram,但這種方法並不按照需要運行。正則表達式使用正則表達式
比方說,我多次進入「在山上和樹林中」。我期望的輸出將是整個短語「在山上和樹林中」。使用我目前的實現,該短語被分解爲三元組,並且在每個重複條目上添加一個詞。因此,在第一個入口我得到「過山」。在第二項「過山」等
假設我們有以下文字:
這是一個測試
這是另一個測試
這也是考驗
緊急廣播系統的測試中斷了我最喜歡的歌曲
我的目標是,如果「這是對緊急廣播系統的測試」進入下一個我可以讓我們e在正則表達式內返回「這是一個測試」和「緊急廣播系統的測試」。這是可能通過正則表達式或我走錯了路嗎?我感謝任何幫助。
正則表達式是錯誤的工具。 – 2010-01-24 21:26:19