2009-11-22 46 views
1

我正在進入一個項目,以進行意見挖掘(數據挖掘 - > Web挖掘 - >意見挖掘)以獲取所包含單詞的語義定位。我們將使用抓取工具獲取網頁意見。現在的問題是,我應該使用什麼類型的DataBase(OO,Relational,hierachycal等),最好在這種類型的項目中使用。 我知道這是一個具體的問題,我沒有期待每個人的迴應,但至少有人已經做到了,這會有所幫助。意見挖掘 - 數據庫類型是什麼?

問候!

回答

0

如果你需要大規模和響應的東西,你可能需要去谷歌的BigTable或這種性質的東西。在原型級別上,我相信你可以使用傳統的關係數據庫,但是在某些時候你會碰到性能牆。見Brewer's CAP Theorem

+1

是的,你正在尋找如此龐大的系統和數據進行分析,當然你正試圖做一些關係型(基於行)的數據庫不善於做的事情。 事實上,Facebook還有一個名爲Cassandra的列式數據庫 - http://incubator.apache.org/cassandra/(與Google的BigTable不同,它是開源的)可用於這種場景。 – 2009-11-22 19:12:34

+0

我懷疑這樣的系統會有硬要求保證noSQL方法。 – 2009-11-22 21:16:17

0

根據我在這種場景中的經驗,關係數據庫可以很好地滿足您的需求。在存儲Web內容時,您需要格外小心 - 無論您是想使用數據庫來存儲它,還是隻需像文件系統一樣存儲即可。 BLOB特別需要額外的照顧,並且會增加您的維護工作。

同樣基於項目的性質,您肯定會使用很多已經內置的組件等等,其中許多已經支持/容易擴展以使用關係數據庫作爲數據存儲。