我有一個包含100萬行的文檔,需要使用大約8000行的文件進行搜索。我最初嘗試使用lucene,但搜索這麼多搜索引擎需要花費時間。是否有可能執行此類搜索操作?我需要找到與包含8000行的純文本文檔中的搜索字符串類似的字符串。我嘗試使用lucene的可能方法:如何在java文檔中搜索1百萬字符串?
- 索引8000行文檔並傳遞100萬個搜索查詢。
- 索引包含搜索查詢的文檔並將8000行文檔作爲搜索請求。我不確定這是否是一個正確的想法。
- 可能的一個:我從來沒有嘗試過。索引兩個文件並比較它們的相似性。這可以完成嗎?
我不熟悉術語「拉赫」。我看到它被用於100,000次。那是對的嗎?在10萬= 100萬? – femtoRgon
是10 Lkh = 1,000,000。 – Balaram26
8000行文件包含什麼?這些只是一些關鍵字或一些長句/短語?請從這兩份文件中發佈一些樣本內容。 –