2009-09-24 53 views
2

我有一個充滿各種產品評論的數據庫。我的任務是執行各種計算,並用彙總的數據「創建」另一個「database/xml-export」。我正在考慮用python編寫命令行程序來做到這一點。但我知道以前有人這樣做,我知道有一些開源的python解決方案或類似的,可能會提供更多有趣的「聚合數據」,然後我可能會想到。python中的開源數據挖掘/文本分析工具

問題是我對這個領域並不瞭解太多,然後從命令行進行基本的數據操作,也不知道我應該用什麼術語來搜索這個東西..我真的不是在尋找一些科學/可視化的東西(不是我不介意,如果工具提供),一些簡單的開始,並逐漸看到/開發我所需要的東西。

我唯一的要求是要麼「結束彙總的數據」在數據庫中或作爲XML文件導出沒有專有的東西。它有點強大,然後我的Python腳本,因爲我必須處理4臺機器上的「大量」數據。

任何暗示我應該從哪裏開始我的研究?

謝謝。

回答

1

看起來您正在尋找一個數據集成解決方案。
一個建議是Pentaho套件的開放源代碼Kettle project的一部分。
對於Python,快速搜索產生PyDISnapLogic

+0

這Pentaho,聽起來很有趣。我想它花了很多!.. – wailer 2009-09-24 18:31:22

+0

絕對不是,有開源社區版(沒有支持): http://community.pentaho.com/ – Amro 2009-09-24 19:02:51

1

你想要做什麼樣的分析?

如果您正在分析文本,請查看Natural Language Toolkit(NLTK)。

如果您想索引和搜索數據,請查看whoosh搜索引擎。

請提供一些您正在尋找的分析類型的更多細節。

+0

總體而言,我有日期/時間,文本(即審查)和審查(所以它有點像螺紋評論)的意見/回覆,在某些情況下,我在評論中有URL,還有其他與用戶相關的東西,比如他的積分等等。 現在,我絕對想要某種NLP來分析文本。此外,我想提取/計算值,如「計算機」類別中的評論數量,評論分開的頻率等。我希望它能給你更多的信息。我會看看你上面提到的那些。 謝謝。 – wailer 2009-09-24 18:28:29