通過消除冗餘優化Solr索引

-1

我正在製作一個生產場景，目前數據量較少，現在將以百萬計。
場景：我有一個包含多個學生數據的文件夾（student_id，rol等）。

現在，一個學生的數據可以放在不同的文件夾中（是我們的要求）。在當前系統中，學生的所有細節都在每個文件夾下編入索引。由於數據非常少，所以重複現在不會產生問題。但是，如果我們繼續進行相同的過程，那麼同一個學生的數據將被多次索引（取決於包含該學生數據的文件夾數量），從而增加冗餘和索引大小。

我想縮小索引大小，不想要數據冗餘。請在Solr中提供更簡單的解決方案來實現此任務。通過消除冗餘優化Solr索引

來源

2015-09-21 Kamal Nayan

只要你定義了一個唯一鍵字段，使用相同的密鑰爲以前的文檔的任何文件將覆蓋現有文件，你會避免在索引有重複。

如果您沒有可識別您的學生的唯一值，則您將很難合併任何內容（除Solr之外），並且您可能必須編寫一些自定義代碼以合適地合併條目在Solr之外。

來源

2015-09-21 12:12:11 MatsLindh

我想我不能讓你理解我的場景。在目前的系統中，學生的所有細節都在每個文件夾**下編入索引。我的意思是，folder1有student1數據（s_id，rol等），並且folder1中也存在相同的student1數據等等。現在我想問，如果數據是同一個學生，那麼爲什麼每次都在不同的文件夾下索引？有沒有什麼方法可以索引一次並在其他文件夾中再次使用它。請注意，我們**文件夾內的student_data ** –

通過消除冗餘優化Solr索引

回答

相關問題