2011-01-19 44 views
3

我真的在尋找一個工具包或現成的工具,它將解析給定的文檔,然後生成一個更好的簡要總結該文件。我知道Python有ntlk和perl有相當多的模塊,這將有助於自然語言分析等。 甚至可以使用類似工具套件的ntlk編寫工具來完成這項工作,但缺乏時間。如果您知道某些此類工具或有一些指向此類工具的指示,如果您可以在此發佈,請提前致謝,謝謝。是否有一個基於Perl或Python的開源工具來生成文檔的思維導圖摘要

回答

0

谷歌人可能已經在研究這樣的事情。 ;-)

如果我找到了你的話,你需要一個能夠爲你讀取一本書的工具,然後簡要總結一下它的含義,這樣你就可以自己省時間閱讀它。也許你對這些內容不感興趣,而是想對材料進行分類,例如作爲圖書管理員。

對於結構化非常好的文本,在非常專業化的領域中有許多非常相似的文檔,例如論文的數學證明或實驗結果或醫療報告,這在技術上可能是可行的。當然,有可能有一種工具可以區分小說和電話簿,粗略地分類文獻。顯然,提供頁面或單詞計數,識別書面語言等非常容易,因爲這些參數可以明確定義。

當然,電腦肯定會失敗,試圖掌握實際的故事,任何更多的對話或隨意。因此,要決定誰是好人,誰是壞人,或者手頭的作品是以偵探爲題材的愛情小說還是偵探愛上別人的犯罪驚悚片,機器就沒有機會決定什麼是什麼可行的內存量,CPU能力和知識庫。

也許它會幫助,如果你可以更具體的關於你想要使用這個工具的實際目的。

+0

感謝您的回覆。實際上,我現在更感興趣的是分析生物信息學和基因組學領域的文件/論文,所以如果我們可以這樣說的話,這個領域就是「受限制的」:-)。目前我正在尋找一個簡單的實用程序,它將對內容進行簡單的解析並以樹形方式生成文檔的地圖。隨着時間的推移,我可以爲它提供一個短語列表,或者應該被認爲是相關聯的單詞列表,如果沒有出現,我可能不得不把它們放在一起。 – datta 2011-01-19 11:34:06

相關問題