假設我有一個事件列表。例如A, D, T, H, U, A, B, F, H, ...
。連續序列數據中的模式
我需要的是找到完整序列中出現的頻繁模式。在這個問題中,我們不能使用先驗或fp增長等傳統算法,因爲它們需要單獨的項目集。而且,我不能把這個流分成更小的集合。
任何想法哪種算法適合我?
EDIT
例如,對於序列A, D, T, H, U, A, D, T, H, T, H, U, A, H, T, H
,並用min_support = 2
。
頻繁模式將是
Of length 1 --> [A, D, T, H, U]
Of length 2 --> [AD, DT, TH, HU, UA, HT]
Of length 3 --> [ADT, DTH, THU, HUA]
Of length 4 --> [ADTH, THUA]
No sequences of length 5 and further
我認爲這個問題太廣泛了,但作爲第一個猜測,你可能想看看[iSAX](http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html ) – Marco13
我只想在那個大流中找到所有長度的頻繁模式。搜索了很多東西之後,我在互聯網上找不到任何東西。 – Haris
[「字符串」壓縮](https://en.wikipedia.org/wiki/Lossless_compression#General_purpose)算法嘗試利用(至少是本地的)可預測的序列概率非均勻性。 – greybeard