假設我有一組短語 - 約10 000個 - 的平均長度 - 7-20個單詞,我希望找到某個給定的短語。我正在尋找的短語可能會有一些錯誤 - 比如錯過一兩個單詞,有些單詞放錯了位置,或者是一些隨機的單詞 - 例如我的數據庫中包含「當我騎着紅色的自行車時,我看到了克莉絲汀」,而我「當我騎着藍色的自行車,看到克里斯蒂娜時」,或者「我騎着自行車,我看到了克里斯蒂娜和馬裏恩」。對這個問題有什麼好的方法?我知道萊文斯坦的距離,我也認爲這個問題可能並不容易,很好的解決方案。模糊句子搜索算法
Q
模糊句子搜索算法
3
A
回答
1
一個好的文本搜索引擎將提供諸如你所描述的功能,fsh。一種典型的方法是創建一個與任何單詞發生匹配的查詢,並使用基於彼此接近發生的詞的數量的權重對結果進行排序,並且對它們的發生概率進行相反的加權,因爲不常見的單詞會少一些很可能偶然發生。有一種稱爲信息檢索的完整理論,但也許你知道這一點。此外,您希望確保通過規範化案例,標點符號等並應用一些基本的語言轉換(詞幹)來解決詞級模糊問題,並且在某些情況下引入同義詞詞典,特別是在有領域知識的情況下可用於調節它。
如果你對這個東西感興趣,試試開源搜索引擎,this article by Vik從2009年的角度給出了一個合理的調查,this one by Middleton and Baeza-Yates給出了一個很好的詳細介紹該主題。
相關問題
- 1. 模糊SQL搜索
- 2. QtSql模糊搜索
- 3. 模糊搜索SQL
- 4. Solr和太陽黑子模糊搜索
- 5. 模糊搜索目錄名稱的最佳算法
- 6. 什麼是textmate的「Go to File」模糊搜索算法?
- 7. 語法Solr中模糊搜索4
- 8. 模糊搜索Solr中
- 9. 搜索模糊查詢 - Elasticsearch
- 10. 模糊搜索在Lucene的
- 11. 模糊搜索的Python
- 12. Lucene.net模糊短語搜索
- 13. php(模糊)搜索匹配
- 14. 用lucene模糊搜索
- 15. 模糊搜索雙打postgres
- 16. 是lucene模糊搜索懶?
- 17. Magento SOLR模糊搜索
- 18. Oracle模糊文本搜索
- 19. 詞典模糊搜索
- 20. Lucene 30模糊搜索
- 21. 模式搜索算法
- 22. INNER JOIN:where子句太模糊
- 23. Hibernate搜索中的模糊索引
- 24. 模糊搜索+倒排索引
- 25. 「模糊」帖子標籤和帖子標題搜索mysql和php
- 26. Where子句是模糊的笨模型
- 27. 搜索算法
- 28. 搜索算法
- 29. 高斯模糊算法
- 30. Android框模糊算法
你想對結果做什麼?只要確定他們? – DMan
最好,我想把它們當作關鍵字並檢索相應的值 - 將數據庫視爲例如一本書的句子,我想找到相應的頁面/章節。 – fsh
也尋找剽竊探測器 - 你的聽起來像一個很好的用例。 –