我正在一個項目中,我需要搜索與任何查詢相關的數據庫中存在的所有文檔(pdf /文檔等)。 我早些時候使用了一個簡單的關係,我存儲了與文檔關聯的相關關鍵字,如果查詢包含這些關鍵字,那麼我就可以獲取這些文檔。但是這種方法並不可靠,因爲這些關鍵字可能會引起誤解。我需要在文檔中進行搜索,並且我正在尋找一種實用的搜索算法,該算法可以很好地擴展並且具有較少的時間複雜度。 任何建議和資源是最受歡迎的。 謝謝。想出一個搜索算法來搜索文檔內
0
A
回答
0
嘗試Rabin-Karp(基於散列碼)搜索算法。由於您必須在許多文檔中搜索多個模式,它將獲得所有模式的哈希碼,並會一次查找所有模式。
+0
如果您反覆搜索大量文檔,這會非常昂貴。當您搜索一百萬個文檔時,只需要輸入/輸出文件就會過多。對於大量文檔,您需要預處理數據以構建某種索引。 –
相關問題
- 1. 搜索文檔
- 2. 搜索算法
- 3. 搜索算法
- 4. 搜索兩個Lucene文檔
- 5. 搜索最佳點搜索算法
- 6. 搜索XML文檔
- 7. 搜索XML文檔
- 8. 文件夾搜索算法
- 9. 文本搜索算法
- 10. Solr不搜索整個索引文檔
- 11. 使用grep來搜索文本文檔
- 12. 樹搜索算法
- 13. 跳搜索算法
- 14. SQLAlchemy搜索算法
- 15. MySQL搜索算法
- 16. .net搜索算法?
- 17. 搜索算法 - Java
- 18. Cscope語法hightlight搜索內搜索
- 19. 搜索欄來搜索TextViews
- 20. 如何使用搜索方法對Lotus Notes文檔搜索
- 21. 寫一個後期搜索算法
- 22. 實現一個搜索算法android
- 23. Rails的:一個好的搜索算法
- 24. 使用mongodb文檔來匹配搜索
- 25. NHibernate全文搜索文檔
- 26. 通過文檔內部的文檔搜索不良做法?
- 27. 如何在Lucene上只搜索每個搜索到的文檔
- 28. NLP算法來'填寫'搜索條件
- 29. 算法來搜索重複的信息?
- 30. 搜索一行文本文檔 - JAVA
你的問題太模糊了,但我知道Apache Lucene是一個很棒的搜索庫,你可以查看它並找到它正在使用的算法。 –
@ AbdenaceurLichiheb,先生你有什麼困惑,請不要使用庫,我想自己實現算法。 – Atul
是的,我知道,這就是爲什麼我說「找到它使用的算法」,它使用了很好的算法,但我認爲你需要有一些數據科學背景,因爲它們對每個人都不簡單。 –