我想爲大數據集生成ngram頻率。維基百科,或更具體地說,Freebase的WEX適合我的目的。爲大數據集生成ngram頻率
什麼是最好的和最具成本效益的方式來做到這一點在第二天左右呢?
我的想法是:使用正則表達式
- PostgreSQL的拆分句子和單詞。我已經有WEX轉儲在PostgreSQL和我已經有正則表達式做分裂(此處不需要大的精度)
- 的MapReduce與Hadoop的
- 的MapReduce與Amazon的Elastic MapReduce的,這是我下一個知道一無所知
我對Hadoop的經驗包括非常非常低效地計算三個EC2實例上的Pi。我對Java很好,我也理解Map + Reduce的概念。 PostgreSQL我擔心會花很長時間,因爲它不容易並行化。
還有其他方法可以做到嗎?爲了在接下來的幾天內完成,我最好的選擇是什麼?