2015-09-21 31 views
-1

我正在製作一個生產場景,目前數據量較少,現在將以百萬計。
場景:我有一個包含多個學生數據的文件夾(student_id,rol等)。

現在,一個學生的數據可以放在不同的文件夾中(是我們的要求)。在當前系統中,學生的所有細節都在每個文件夾下編入索引。由於數據非常少,所以重複現在不會產生問題。但是,如果我們繼續進行相同的過程,那麼同一個學生的數據將被多次索引(取決於包含該學生數據的文件夾數量),從而增加冗餘和索引大小。

我想縮小索引大小,不想要數據冗餘。請在Solr中提供更簡單的解決方案來實現此任務。通過消除冗餘優化Solr索引

回答

1

只要你定義了一個唯一鍵字段,使用相同的密鑰爲以前的文檔的任何文件將覆蓋現有文件,你會避免在索引有重複。

如果您沒有可識別您的學生的唯一值,則您將很難合併任何內容(除Solr之外),並且您可能必須編寫一些自定義代碼以合適地合併條目在Solr之外。

+0

我想我不能讓你理解我的場景。在目前的系統中,學生的所有細節都在每個文件夾**下編入索引。我的意思是,folder1有student1數據(s_id,rol等),並且folder1中也存在相同的student1數據等等。現在我想問,如果數據是同一個學生,那麼爲什麼每次都在不同的文件夾下索引?有沒有什麼方法可以索引一次並在其他文件夾中再次使用它。請注意,我們**文件夾內的student_data ** –