2011-03-01 18 views
1

我最新的項目需要的文本文檔之間的相似性測量,並給他們每人一些簡短的標題。有沒有開源的圖書館?或者如果我必須自己創建它,是否有任何有關這些主題的教程?我應該使用哪些工具?開源工具,文本聚類和自動彙總

回答

2

測量相似之處。您可以使用相同的潛在語義索引。 Here is one paper關於文件的相似之處。

文摘是比較困難的那麼的相似性措施,你必須生產出對人類有意義。 OpenNLP是所有與文本處理相關的基礎知識的好庫。與文本摘要更多的論文是here,可能是一個好的開始。

2

您可以使用edit distance函數之一來測量相似度,如果您執行搜索,則有可用於填充語言的實現,例如C# Leventshtein distance.

文件之間的相似性也可能是Information Retrieval的問題,是一個流行的庫。 Lucene的使用vector space model確定文檔和查詢之間的相似性,並且還可以使用兩個文檔之間來測量相似性。 Java和C#中還有其他語言的實現以及其他語言的實現。

問題也可以是natural language processing的問題,我使用的庫有NLTKLingPipe。這些圖書館的目標遠非相似之處,它們有着陡峭的學習曲線,可能是過度殺傷。但是,這些可能有助於提取文檔的簡短標題。你可以用文檔縮放的矢量相似(check vector space model)的較舊的技術開始的文本文檔之間