我有兩個不同的文件,每個文件的內容來自不同的數據流。我從兩個不同的文件中收集了來自這些流的一些數據。然後,我想搜索文件以查找任何類型的模式,以便在稍後階段如果我從流中收集更多數據,我應該能夠區分哪些數據屬於哪個流(基於我發現的模式更早)。查找十六進制文件中的模式
該文件中包含的數據的一個示例可以是:b0 82 91 a2 c3 89 b0 82 4a e3 ....(更多字節)... 雖然我在這裏佔用了很少的字節,但我們可以找到上面兩次出現的模式「b0 82」。所以輸出結果應該顯示模式和它未來的時間。類似的,我們可以有3字節模式或甚至更多的字節模式。
其他示例可以是:aa 00 a7 2f 7b 4c ....(更多字節)..... aa 01 a7 .........(更多字節)..... .aa 05 A7 ..... 我認爲,即使這可以被認爲是3個字節,其中兩個字節(AA & A7)是固定的,中間的一個從00到05。
變化的圖案這些兩個例子我可以想到,雖然可能會有更多的圖案。即使可能有一些隱藏的模式不能立即可視化。只要有助於在稍後階段區分兩股流股,整個想法是可行的。我想我現在更清楚地說明我的問題。請讓我知道以下幾件事:
我們該如何做這種類型的模式查找?
是否有任何工具或庫可以幫助實現此目的?
還有哪種語言或工具可用於高效快速的開發?
數據挖掘領域可以爲此目的提供幫助嗎?如果是的話,如何繼續?
你能更具體地說明你的意思是「模式」嗎? – templatetypedef 2012-02-15 08:42:01
模式可以是任何可以與其餘數據區分開來的任何模式。例如,它可以是任何字節,如0x4a或0x56或任何字節。或者甚至是像0x4a56那樣的組合。此外,如果說有一些字節的5個最高有效位是相同的,而低3位是從000到111,那麼這也會形成一個模式,因爲5位在幾個地方是相同的。這是我能想到的可能模式。還有可能是你會想到更多這樣的模式,只有我想要的東西是他們應該容易區分。 – mezda 2012-02-15 09:00:17
這是不可能做到的,因爲幾乎任何東西都可以成爲一種模式。你想用這個做什麼?也許有更具體的問題? – templatetypedef 2012-02-15 09:44:55