我有兩個文件(f1和f2)包含一些文本(或二進制數據)。
我怎樣才能快速找到共同的塊?查找公用塊
例如
F1:ABC DEF
F2:XXABC XEF
輸出:
公共塊:
長度4: 「ABC」 在F1 @ 0和f2 @ 2 長度2:在F1 「EF」 @ 5個f2 @ 8
我有兩個文件(f1和f2)包含一些文本(或二進制數據)。
我怎樣才能快速找到共同的塊?查找公用塊
例如
F1:ABC DEF
F2:XXABC XEF
輸出:
公共塊:
長度4: 「ABC」 在F1 @ 0和f2 @ 2 長度2:在F1 「EF」 @ 5個f2 @ 8
維基百科的一個很好的工具有一些pseudocode尋找t的最長公共子數據序列。在你的情況下,你只需從表中提取所有不是其他常用子字符串(即最大公共子字符串)的前綴的公共子字符串。
這是用於這種目的: http://sourceforge.net/projects/duplo/
開源PMD項目具有本頁提到的剪切檢測模塊:http://pmd.sourceforge.net/integrations.html。
您似乎將項目分組('ABC',然後'DEF'),通用部分在相同的組中。這是故意的嗎? – 2008-09-23 20:51:44