0
A
回答
0
0
一個非常簡單的方法是在獲取它時解析每個文本文件,並創建一個包含句子和哪些文檔包含該句子的數據庫。也就是說,你必須是這樣的:
Sentences table
Key - a unique sequential integer
Hash - a 32-bit or 64-bit hash code created from the sentence
Text - The full sentence text
Files table
Key - a unique sequential integer
Name - the file's name
Associations table
FileKey
SentenceKey
所以,當你分析一個句子,創建哈希碼和查詢數據庫包含該哈希碼所有句子。可能有多個。如果沒有找到句子,或者如果遇到重複的散列碼(即散列匹配但句子文本不同),則在句子表中創建一個新條目。無論哪種情況,您都會在關聯表中輸入一個條目,並說「這個文件包含這個句子。」
您可以在解析的同時建立包含常用句子的文件列表。所有你需要做的就是在你找到一個匹配的時候輸出公共文件。
如果您想稍後查詢數據,可以使用SentenceKey對關聯表進行排序,排除只出現在一個文件中的那些句子,並最終得到重複項。
這是廣泛的筆畫。我隱藏了一些實現細節,但沒有涉及真正的繁重工作。
此外,您不必使用DBMS來執行此操作。如果你有足夠的內存,你可以用內存數據結構來完成。但是這個數據庫非常方便,因爲它保存了信息,並且它被設計用來做這樣的事情。
相關問題
- 1. 我可以提高大量時間序列數據之間的相關性分析的計算速度嗎?
- 2. 什麼lucene分析器可以用來處理日文文本?
- 3. 文本相似度分析(Excel)
- 4. 什麼算法可以用來區分圖像文件?
- 5. 檢查文本數據之間的相似度
- 6. 文字相似度算法
- 7. 使用word2vec來計算用戶之間的相似度
- 8. 嚴格文件相似度的文本相似度函數
- 9. 什麼是計算圖像區域之間相似度的常用算法
- 10. 使用HBase獲取數據以使用Mahout計算文本相似度
- 11. 如何計算兩個license.txt文件之間的相似度?
- 12. 解析同一文法的不同文件並計算文件的相似度
- 13. 計算數百萬個文檔之間的相似性度量
- 14. 算法/庫文本相似
- 15. 算法識別文本消息之間的相似性
- 16. 我可以使用什麼來生成本地XML文件?
- 17. 使用WordNet來確定兩個文本之間的語義相似度?
- 18. 我可以使用什麼來分析我的50+網站?
- 19. 確定幾個25k文件之間的文件相似度
- 20. 計算多個詞典之間的相似度「分數」
- 21. 爲什麼我的數據庫文件與普通文本文件具有相同數據的大小相同?
- 22. 計算Lucene文檔和質心之間的相似度
- 23. 如何計算查詢和文檔之間的相似度?
- 24. 我可以使用什麼工具來分析Asp.Net中的ViewState?
- 25. 我可以使用什麼算法來計算有多少學生具有相同的分數?
- 26. LocalCache和TempState應用程序數據文件夾之間有什麼不同(以及相似之處)?
- 27. 增量文檔相似度算法
- 28. 位圖數據相似度算法
- 29. 如何計算NLTK中synsets之間的最大相似度? -Python
- 30. 有什麼方法可以計算文本文件中的段落數量嗎?