正則表達式使用正則表達式

我正在開發輔助和替代通信（AAC）程序。我目前的目標是存儲輸入/說出文本的歷史記錄，並搜索常用短語片段或單詞n-gram。我正在使用基於lzw壓縮算法的實現，如CodeProject - N-gram and Fast Pattern Extraction Algorithm所述。儘管生成n-gram，但這種方法並不按照需要運行。正則表達式使用正則表達式

比方說，我多次進入「在山上和樹林中」。我期望的輸出將是整個短語「在山上和樹林中」。使用我目前的實現，該短語被分解爲三元組，並且在每個重複條目上添加一個詞。因此，在第一個入口我得到「過山」。在第二項「過山」等

假設我們有以下文字：

這是一個測試
這是另一個測試
這也是考驗
緊急廣播系統的測試中斷了我最喜歡的歌曲

我的目標是，如果「這是對緊急廣播系統的測試」進入下一個我可以讓我們e在正則表達式內返回「這是一個測試」和「緊急廣播系統的測試」。這是可能通過正則表達式或我走錯了路嗎？我感謝任何幫助。

來源

2010-01-24 Jeff

正則表達式是錯誤的工具。 – 2010-01-24 21:26:19

雖然在Matching parts of a string when the string contains part of a regex pattern顯示的技術接近，但我一直無法找到一種方法來單獨使用正則表達式。

我最終使用了我的初始系統和一些正則表達式的組合，如下所示。

flow chart http://www.alsmatters.org/files/phraseextractor.png

這解析第一次總統辯論（16,500字）的成績單在大約30秒，這對於我而言是相當快的。

來源

2010-01-25 21:24:44 Jeff

從你的用例看來，你不想要固定長度的n-gram匹配，而是一個最長的n-gram匹配序列。剛剛看到你自己的帖子的答案，這證實了;）

來源

2010-01-25 21:32:34

在python中，你可以使用fuzzywuzzy庫通過「同義詞」短語或單詞的關聯列表匹配一組短語到規範/規範化的短語集。訣竅是恰當地分段你的短語（例如，當逗號分開短語以及它們何時加入短語中的相關單詞列表時）？

下面是RAM中python字典的結構。在C本數據結構或數據庫將是類似的：

phrase_dict = { 
    'alternative phrase': 'canonical phrase', 
    'alternative two': 'canonical phrase', 
    'less common phrasing': 'different canonical phrase', 
    } 

from fuzzywuzzy.process import extractOne 

phrase_dict[extractOne('unknown phrase', phrase_dict)[0]]

，並返回

'canonical phrase'

FuzzyWuzzy似乎使用類似的簡化的Levenshtein編輯距離......這是快，但不處理好大寫字母（首先對你的情況進行標準化處理），單詞聲音（還有其他庫，如soundex，它們可以用他們聽起來像是散列的短語）或單詞含義（這就是你的短語詞典的用途）。

來源

2013-03-30 19:43:25 hobs

正則表達式使用正則表達式

回答

相關問題