2011-12-11 33 views
-1

我正在做一個基於文本處理和挖掘的研究。原則很簡單,我們收集特定日期內的所有帖子,例如「2011Jan01」。我們不關心哪個客戶端發佈該內容,我們只關注他發佈內容的時間。例如,在「2011Jan01」日期,這裏有五位客戶在我們的論壇上發佈了關於產品的一些想法,我們刪除了有關客戶的信息,並將他們的帖子的內容組合在一起。如何使用數據庫來存儲大型日常文本源?

但是,我們有一個大型論壇,因此我們可能會有數千人每天發佈長或短的主題。如果我們結合起來。一天會有一萬甚至幾十萬行。

我們想使用一些像MySQL這樣的數據庫來建立一個表來保存數據,然後再進行數據挖掘。我們對錶的第一個想法很簡單:

Date    combinedPostContents 
    2011Jan01  "blablalbla everything from clients, lot of contents" 

是這個簡單合理?或者我們應該使用本地文本文件保存內容並在收集日期之前將文本文件命名?哪一個更好?

感謝很多提前,大師!! :)

+0

爲什麼給我一個-1?這個問題不重要嗎? –

回答

1

數據挖掘文本信息,以獲取有關產品的客戶的想法將是非常困難的。你一定會想要使用一個數據庫,你真的應該爲他們正在審查的產品做一些評級系統。

+0

非常感謝。我的問題是,如果來自某一天的內容大約是幾十萬字,這是否合理可以保存在數據庫的一列中? –

+0

一列或一千列不會簡化文本搜索問題,所以在Microsoft SQL Server中,確保NVARCHAR(MAX)應該工作得很好。 – UnhandledExcepSean

+0

非常感謝! –

相關問題