2012-09-05 63 views
0

我有很多數據記錄(大約15億)並且有很多查詢(大約10萬)。在數千個查詢中匹配海量數據記錄

每個記錄可以與多查詢進行匹配。(它可以通過EVAL對數據記錄的查詢來確定)

的記錄被存儲在分佈式數據庫。每條記錄都有一個字段用於存儲與此數據記錄匹配的查詢的ID。

我可以在大約15分鐘內掃描所有記錄(但對數據不做任何處理)。

對於每條記錄。我想用它匹配的查詢ID來標記它。沒有很大的延遲(例如:1小時)。有沒有一個好的算法來做到這一點?遍歷查詢中的每個查詢都不是解決方案。我認爲某種索引是需要的。請幫忙!謝謝!

回答

0

Apache Pig默認情況下啓用了multiquery。如果您的查詢共享相同的數據源,則Pig將並行執行它們,以便輸入數據只能讀取一次。