很多文章的單詞列表 - 文檔 - 術語矩陣

我有近150k土耳其文章。我將使用文章進行自然語言處理研究。我想在處理文章後爲每篇文章存儲它們的文字和頻率。很多文章的單詞列表 - 文檔 - 術語矩陣

我現在將它們存儲在RDBS中。

我有3個表：

文章 - >的article_id，文字
詞 - > word_id，類型，字
字 - 文章 - >編號，word_id，ARTICLE_ID，頻率（指數word_id，指數article_id的）

我的文章

一個字的每articl頻率查詢

我有幾百萬文字，文章表行。我一直在這個項目中與RDBS合作。從mysql開始，現在使用oracle。但我不想使用oracle，並希望比mysql更好的性能。

另外我必須在4gb RAM的機器上處理這項工作。
簡單地說，如何存儲文檔項矩陣並對其進行查詢？性能是必要的。可以「鍵值數據庫」在性能上擊敗MySQL嗎？或者什麼可以擊敗MySQL？

如果你的答案編程語言依賴，我在Python中編寫代碼。但是C/C++，Java沒問題。

2009-12-25 mumino

也許檢出lucene（或Zend_Search_Lucene在PHP中）。這是非常好的FTS引擎。

2009-12-25 02:35:53 jspcal

對於150k條款，您必須在words_articles表中有幾百萬行。只要您正確配置MySQL，這是可管理的。

一些提示：

2009-12-25 03:12:30

回答