我想知道這樣的算法是否存在。我有一堆文本文檔,並希望在所有這些文檔中找到一個模式,如果存在模式的話。請注意,我不試圖對文檔進行分類,我想要做的就是在某些文檔中找到一個模式。謝謝!動態文本模式檢測算法?
回答
現在的問題有點模糊..你需要知道你在找什麼才能找到它。
一些想法,可能是有用的 -
- 獲取NGRAM分別爲每個文檔對於n = 1,2,3,4數,然後比較不同的文件的每個的ngram的頻率。這應該可以幫助您找到所有文檔中常見的短語。
- 獲取一部分的語音標記以將所有文檔轉換爲POS標記流,然後執行相同的操作1
- 使用PCFG軟件(如Stanford Parser)獲取所有句子的解析樹然後試圖弄清楚句子結構的分佈對於不同的文檔有多相似。
以及你提到的「計算」文件的極性。我想查找的是這些文檔之間存在的模式(含義或邏輯流程)。謝謝! @ adi92 –
對不起,這仍然太模糊..請給我一些具體的例子,你想要什麼類型的輸入你想要的算法,以及你想要它發出什麼類型的輸出..解決問題正在能夠精確地定義它 –
通過在每個文檔的基礎上對ngram計數進行規範化,可以制定一個多項分佈,爲文檔中經常出現的單詞和短語提供更高的概率。然後通過比較不同文檔(歐幾里德距離)的分佈,可以猜測哪些文檔比其他文檔更相似。更相似的文檔更有可能具有相似的含義或邏輯流程? –
- 1. AS3動態文本算法
- 2. 如何檢測啓動加載器上的文本模式或圖形模式?
- 3. 檢測等效表達式的算法
- 4. 哪種算法可以用來檢測時間模式?
- 5. 模板動態變化時檢測
- 6. 動態檢測丟失的模塊(Python)
- 7. 動態框文本檢票
- 8. 正則表達式檢測的文本模式
- 9. 檢測溫度波動的合適公式/算法
- 10. 檢測隨機文件名的算法?
- 11. 在靜態方法中使用WPF檢測設計模式
- 12. 檢測leiningen測試模式
- 13. 檢測URl模式
- 14. 動態檢測滾動條
- 15. 計算文本文件中的模式
- 16. 用於文本自動糾正的動態算法
- 17. ASP.NET檢測動態文件請求
- 18. 和絃檢測算法?
- 19. 內容檢測算法
- 20. 異常檢測算法
- 21. 角點檢測算法
- 22. 簡單的檢測算法
- 23. 克隆檢測算法
- 24. 週期檢測算法
- 25. 人臉檢測算法
- 26. 的裸體檢測算法
- 27. 檢測夏令時算法
- 28. 檢測與計算方法
- 29. 顏色檢測算法
- 30. 檢測手的算法
請更具體地說明您想要檢測的模式。 –
模式的文字(含義)結構 –
我不明白這樣一個模糊的問題可以得到兩個upvotes。在文本中可以找到無數種可能的模式和結構。我正在投票結束;請重新考慮你的問題。 –