因此,讓我們看看我能否簡單解釋我的問題。HBase掃描 - RowKey過濾器
假設我們得到了有迪斯科每次訪問的信息的HBase的表: 每迪斯科註冊其名,訪問者的名稱,的天他參觀了它。 (是的這是一個愚蠢的例子,我知道 ..)。
因此,舉例來說,這些將是表中的一些值:
..
ministryOfSoundJamesOliver01022017
ministryOfSoundJamesOliver02022017
ministryOfSoundJamesOliver03022017
ministryOfSoundOliviaNewton04042017
ministryOfSoundOliviaNewton06042017
...
pachaibizaJohnMcKiness06042017
pachaibizaJohnMcKiness04042017
pachaibizaWilliamForrester04042017
..
的RowKey具有以下結構:
discoName
PERSONNAME
dayOfTheYear
(表中有一些其他列/限定符,但我不介意這個問題)。
的問題是:想象一個男孩,單純喜歡去省聲。他只是喜歡它,他花他所有的錢在迪斯科和藥物(,但這不是點)。
我的目標是要輸出每個人都出席Ministry Of Sound。在我的掃描中,這個傢伙不斷出現在結果中,所以我必須放棄搜索下一位訪問者的許多條目。 F.E:
..
ministryOfSoundJohnnyYonkie01022017
ministryOfSoundJohnnyYonkie02022017
ministryOfSoundJohnnyYonkie03022017
ministryOfSoundJohnnyYonkie04022017
ministryOfSoundJohnnyYonkie05022017
ministryOfSoundAnotherDude02022017
...
爲了註冊AnotherDude,我必須從約翰尼放棄4項。
最後,問題是:
有沒有辦法告訴HBase的,從字節重複條目(X),以字節(X + Y)X是字節從數discoName
和y的字節數從personName
]必須是自動丟棄?
非常感謝!第一
什麼是數據訪問模式?你使用Hadoop和MapReduce,還是隻使用HBase客戶端API掃描表?您是否想跳過HBase服務器端或客戶端上的條目,因此數據處理功能將只接受獨特的迪斯科用戶條目?我沒有完全理解這種情況。 – AdamSkywalker
嗨@AdamSkywalker!我們通過客戶端API(使用thrift和C#)連接到Hbase,我們的目標是跳過服務器端的條目。 謝謝! –
您是否考慮用給定的startKey創建新的掃描以跳過條目?例如,當您找到JohnnyYonkie時,使用開始鍵'ministryOfSoundJohnnyYonkie99999'創建新的掃描。 – AdamSkywalker