什麼方式可以檢測字符串中的重複單詞?如何從Java中的字符串中檢測重複的單詞?
例如「這是重複測試的測試消息」包含一個重複的單詞測試。
這裏的目標是檢測字符串中出現的所有重複單詞。
使用正則表達式可以達到目標。
什麼方式可以檢測字符串中的重複單詞?如何從Java中的字符串中檢測重複的單詞?
例如「這是重複測試的測試消息」包含一個重複的單詞測試。
這裏的目標是檢測字符串中出現的所有重複單詞。
使用正則表達式可以達到目標。
以下Java代碼解決了從字符串中檢測重複項的問題。如果重複單詞由換行符或標點符號分隔,則不應該有任何問題。
String duplicatePattern = "(?i)\\b(\\w+)\\b[\\w\\W]*\\b\\1\\b";
Pattern p = Pattern.compile(duplicatePattern);
String phrase = "this is#$;%@;<>?|\\` p is a is Test\n of duplicate test";
Matcher m = p.matcher(phrase);
String val = null;
while (m.find()) {
val = m.group();
System.out.println("Matching segment is \"" + val + "\"");
System.out.println("Duplicate word: " + m.group(1)+ "\n");
}
代碼的輸出將是:
Matching segment is "is#$;%@;<>?|\` p is a is"
Duplicate word: is
Matching segment is "Test
of duplicate test"
Duplicate word: Test
這裏,m.group(1)語句表示針對模式的第一組匹配的字符串[這裏,是(\\ W +)] 。
用正則表達式可以做的最好的事情是O(N^2)
搜索的複雜度。通過將輸入分成單詞並使用HashSet來檢測重複項,您可以輕鬆實現時間和空間搜索的複雜性。
然後,由於您需要用於檢測的後備數據結構,因此再折衷是時間vs空間 – gtgaxiola
是,但正如我所說的,空間開銷是'O(N)';即與輸入的大小成正比。 –
@StephenC但你能提供任何顯示O(N^2)時間複雜度的鏈接嗎?因爲這個鏈接聲稱它是O(N)。 http://stackoverflow.com/questions/5892115/whats-the-time-complexity-of-average-regex-algorithms –
你的意思是他回答了他自己的問題...... – Borgleader
這個規模有多好? –
@BrianAgnew如果對於某些邊緣測試用例的代碼有任何問題,請通知我。 –