以多種通用文檔格式提供純文本訪問/迭代的庫？

我感興趣找到NLP /文本處理目的的庫，它呈現在最常見的文本格式的文本訪問的通用接口：以多種通用文檔格式提供純文本訪問/迭代的庫？

我想要的東西，在問題解決的文忽略了幾乎所有信息耳鼻喉科但文字，但它應該統一的功能，如：

如果它只支持任何兩種格式，並且只支持上面的一些功能，我仍然很高興。

谷歌搜索一直沒有成功，但我會感到驚訝，如果不存在這樣的事情。 NLP人會用什麼來處理大量的真實世界文本？任何平臺/編程語言都可以，因爲這很難找到。開源，所以我可以貢獻是最好的。

（如果這被認爲是題外話收我至少會體會到什麼其他協議棧Exchange站點，或其他什麼論壇的建議問這樣的問題。）

您可能需要兩個步驟：將內容從文件中取出，然後用一些NLP工具包對其進行分析。第一步可以用Apache Tika完成。對於步驟2，最有名的替代品可能是Gate,Apache UIMA和OpenNLP。請注意，可能會有一些重疊，例如UIMA可能已經有一個使用Tika的組件。

2012-12-02 17:38:44

是的，我猜想我希望能夠從現有的NLP工具或我自己的工具中訪問原始數據。它始終是多種文件格式和有損轉換爲純文本的功能，這一直讓我失望。現在查看這些鏈接......驚訝我在搜索中沒有找到Tika - 可能是我在感謝之後！ – hippietrail

回答