2012-12-02 39 views
0

我感興趣找到NLP /文本處理目的的庫,它呈現在最常見的文本格式的文本訪問的通用接口:以多種通用文檔格式提供純文本訪問/迭代的庫?

  • Microsoft Word中.doc並可能.docx
  • RTF
  • HTML
  • 「純文本」

我想要的東西,在問題解決的文忽略了幾乎所有信息耳鼻喉科但文字,但它應該統一的功能,如:

  • 內聯VS塊格式化(塊是像段落,但內聯樣式的變化被忽略)
  • 所有的字符編碼,實體等,因此UTF應該站出來相同的(UTF-8或UTF-16可能)
  • 配置各種純文本格式,如用於自動換VS那些硬編碼換行符
  • 有方法得到一個字符/單詞/句子在一次,相同的語義無論底層文檔格式如何
  • 意識到線條末尾處的連字符等含糊之處,句首可以是縮寫詞的一部分,也可以是句子的結尾。

如果它只支持任何兩種格式,並且只支持上面的一些功能,我仍然很高興。

谷歌搜索一直沒有成功,但我會感到驚訝,如果不存在這樣的事情。 NLP人會用什麼來處理大量的真實世界文本?任何平臺/編程語言都可以,因爲這很難找到。開源,所以我可以貢獻是最好的。


(如果這被認爲是題外話收我至少會體會到什麼其他協議棧Exchange站點,或其他什麼論壇的建議問這樣的問題。)

回答

1

您可能需要兩個步驟:將內容從文件中取出,然後用一些NLP工具包對其進行分析。第一步可以用Apache Tika完成。對於步驟2,最有名的替代品可能是Gate,Apache UIMAOpenNLP。請注意,可能會有一些重疊,例如UIMA可能已經有一個使用Tika的組件。

+0

是的,我猜想我希望能夠從現有的NLP工具或我自己的工具中訪問原始數據。它始終是多種文件格式和有損轉換爲純文本的功能,這一直讓我失望。現在查看這些鏈接......驚訝我在搜索中沒有找到Tika - 可能是我在感謝之後! – hippietrail

相關問題