在數千個查詢中匹配海量數據記錄

我有很多數據記錄（大約15億）並且有很多查詢（大約10萬）。在數千個查詢中匹配海量數據記錄

每個記錄可以與多查詢進行匹配。（它可以通過EVAL對數據記錄的查詢來確定）

的記錄被存儲在分佈式數據庫。每條記錄都有一個字段用於存儲與此數據記錄匹配的查詢的ID。

我可以在大約15分鐘內掃描所有記錄（但對數據不做任何處理）。

對於每條記錄。我想用它匹配的查詢ID來標記它。沒有很大的延遲（例如：1小時）。有沒有一個好的算法來做到這一點？遍歷查詢中的每個查詢都不是解決方案。我認爲某種索引是需要的。請幫忙！謝謝！

2012-09-05 唐英榮

Apache Pig默認情況下啓用了multiquery。如果您的查詢共享相同的數據源，則Pig將並行執行它們，以便輸入數據只能讀取一次。

2012-09-06 09:30:34 alexeipab

回答