2011-10-05 26 views
1

我想知道這樣的算法是否存在。我有一堆文本文檔,並希望在所有這些文檔中找到一個模式,如果存在模式的話。請注意,我不試圖對文檔進行分類,我想要做的就是在某些文檔中找到一個模式。謝謝!動態文本模式檢測算法?

+1

請更具體地說明您想要檢測的模式。 –

+0

模式的文字(含義)結構 –

+3

我不明白這樣一個模糊的問題可以得到兩個upvotes。在文本中可以找到無數種可能的模式和結構。我正在投票結束;請重新考慮你的問題。 –

回答

1

現在的問題有點模糊..你需要知道你在找什麼才能找到它。
一些想法,可能是有用的 -

  1. 獲取NGRAM分別爲每個文檔對於n = 1,2,3,4數,然後比較不同的文件的每個的ngram的頻率。這應該可以幫助您找到所有文檔中常見的短語。
  2. 獲取一部分的語音標記以將所有文檔轉換爲POS標記流,然後執行相同的操作1
  3. 使用PCFG軟件(如Stanford Parser)獲取所有句子的解析樹然後試圖弄清楚句子結構的分佈對於不同的文檔有多相似。
+0

以及你提到的「計算」文件的極性。我想查找的是這些文檔之間存在的模式(含義或邏輯流程)。謝謝! @ adi92 –

+0

對不起,這仍然太模糊..請給我一些具體的例子,你想要什麼類型的輸入你想要的算法,以及你想要它發出什麼類型的輸出..解決問題正在能夠精確地定義它 –

+1

通過在每個文檔的基礎上對ngram計數進行規範化,可以制定一個多項分佈,爲文檔中經常出現的單詞和短語提供更高的概率。然後通過比較不同文檔(歐幾里德距離)的分佈,可以猜測哪些文檔比其他文檔更相似。更相似的文檔更有可能具有相似的含義或邏輯流程? –