我正在做一個基於文本處理和挖掘的研究。原則很簡單,我們收集特定日期內的所有帖子,例如「2011Jan01」。我們不關心哪個客戶端發佈該內容,我們只關注他發佈內容的時間。例如,在「2011Jan01」日期,這裏有五位客戶在我們的論壇上發佈了關於產品的一些想法,我們刪除了有關客戶的信息,並將他們的帖子的內容組合在一起。如何使用數據庫來存儲大型日常文本源?
但是,我們有一個大型論壇,因此我們可能會有數千人每天發佈長或短的主題。如果我們結合起來。一天會有一萬甚至幾十萬行。
我們想使用一些像MySQL這樣的數據庫來建立一個表來保存數據,然後再進行數據挖掘。我們對錶的第一個想法很簡單:
表
Date combinedPostContents
2011Jan01 "blablalbla everything from clients, lot of contents"
是這個簡單合理?或者我們應該使用本地文本文件保存內容並在收集日期之前將文本文件命名?哪一個更好?
感謝很多提前,大師!! :)
爲什麼給我一個-1?這個問題不重要嗎? –