2011-11-27 81 views
0

我正在爲網絡設計和編寫基於知識的社區共享系統(論壇,Q & A,學生,教授和專家之間的文章共享)。將論壇討論彙編成分類文章或信息的算法/方法?

我需要使用一些數據挖掘/文本處理技術/算法來分析專家和學生之間的討論(使用標籤對討論進行分類)並針對特定類似主題創建適當的註釋和彙編。

我不是關於這些算法或工具可用的專家。如果任何人都能向我提供一些提示或解釋我可以如何解決這個問題,那將會很棒。

謝謝!

回答

0

對於文章的分類,您可以使用LSA(潛在語義分析)技術。

您可以檢查這些工具進行文本處理。

  1. LingPipe:處理文本的工具包。

  2. Lucene:文本挖掘

  3. Solr:強大的文本搜索工具

0

開始閱讀文本挖掘。對於你的問題沒有一般的答案,因爲它不夠精確。你必須對你的目標更精確,然後人們可以爲這些建議方法。你的「分析」過於寬泛。計算單詞的數量也是「分析」!

所以:你想識別,分組或預測什麼?

+0

謝謝您的回答。 基本上我想讓程序做一個人可以稍後閱讀的相似的討論摘要(共享最大標籤,以及類似的問題/主題)。 例如,假設一個問題收到20-25個答案,長短,提問者選擇最佳答案,也許給其他人一個答案。該算法需要選擇一組類似的問題(比如2/3),並以基本的問題 - (回答+辯論/挑戰)格式生成摘要。 – Nilesh