我有一個長文本(約5 MB文件大小)和另一個文本稱爲模式(約2000字符)。有效的算法來搜索長度超過另一個文本中的文本的14個字符匹配的子字符串
任務是從長文本中的15個字符或更長的基因模式中找到匹配的部分。
例如:
長文: ACGTACGTGTCA AAAACCCCGGGGTTTTA GTACCCGTAGGCGTAT 和更長
模式: ACGGTATTGAC AAAACCCCGGGGTTTTA TGTTCCCAG
我看看提供高效(易於理解和實施)的算法。
一個獎金將是一種方法來實現這一點,只需char-array在C++中,如果可能的話。
是否允許其他字符進行干預?這是常見子序列(「ABC」和「ADC」份額「AC」)與常見子詞(「ABC」和「ADC」僅共享單字符子詞「A」和「B」)之間的區別。 –
http://en.wikipedia.org/wiki/Longest_common_subsequence_problem –
@JasonZhu情況並非如此,他希望所有常見的子序列超過15個字符,而不僅僅是最長的一個。 – Imp