2017-04-07 52 views
0

我正在一個項目中,我需要搜索與任何查詢相關的數據庫中存在的所有文檔(pdf /文檔等)。 我早些時候使用了一個簡單的關係,我存儲了與文檔關聯的相關關鍵字,如果查詢包含這些關鍵字,那麼我就可以獲取這些文檔。但是這種方法並不可靠,因爲這些關鍵字可能會引起誤解。我需要在文檔中進行搜索,並且我正在尋找一種實用的搜索算法,該算法可以很好地擴展並且具有較少的時間複雜度。 任何建議和資源是最受歡迎的。 謝謝。想出一個搜索算法來搜索文檔內

+1

你的問題太模糊了,但我知道Apache Lucene是一個很棒的搜索庫,你可以查看它並找到它正在使用的算法。 –

+0

@ AbdenaceurLichiheb,先生你有什麼困惑,請不要使用庫,我想自己實現算法。 – Atul

+0

是的,我知道,這就是爲什麼我說「找到它使用的算法」,它使用了很好的算法,但我認爲你需要有一些數據科學背景,因爲它們對每個人都不簡單。 –

回答

0

嘗試Rabin-Karp(基於散列碼)搜索算法。由於您必須在許多文檔中搜索多個模式,它將獲得所有模式的哈希碼,並會一次查找所有模式。

+0

如果您反覆搜索大量文檔,這會非常昂貴。當您搜索一百萬個文檔時,只需要輸入/輸出文件就會過多。對於大量文檔,您需要預處理數據以構建某種索引。 –