基本上,需要的工作是對數據的基礎上大量的記錄,以及更多的記錄可以被插入所有的時間:數據處理和更新
選擇與狀態「NEW」 < 1000>記錄 - >處理記錄 - >將記錄更新爲狀態「完成」。
這聽起來像我「地圖減少」。
我認爲上述的作業可以可以並行甚至由不同的機器做,但後來我關心的是:
當我選擇狀態爲「NEW」 < 1000>記錄 - 我怎麼知道這些記錄中沒有一個已經被其他工作處理?
當然,不應該選擇和處理相同的記錄不止一次。 性能至關重要。 天真的解決方案是做一個循環中提到的基本工作。
這似乎與大數據處理/ nosql/map reduce等有關。
感謝
這取決於,正在使用哪個databse? – twid
正在使用的數據庫是oracle,而且它可能是HBase的一個小機會。 所以請給我提供2個解決方案(如果它們完全不同): 1.對於Oracle數據庫。 2.對於HBase。 謝謝 – Liran
在第一個作業完成之前開始第二個作業處理新記錄的原因是什麼? – Olaf