0
我感興趣找到NLP /文本處理目的的庫,它呈現在最常見的文本格式的文本訪問的通用接口:以多種通用文檔格式提供純文本訪問/迭代的庫?
- Microsoft Word中
.doc
並可能.docx
- RTF
- HTML
- 「純文本」
我想要的東西,在問題解決的文忽略了幾乎所有信息耳鼻喉科但文字,但它應該統一的功能,如:
- 內聯VS塊格式化(塊是像段落,但內聯樣式的變化被忽略)
- 所有的字符編碼,實體等,因此UTF應該站出來相同的(UTF-8或UTF-16可能)
- 配置各種純文本格式,如用於自動換VS那些硬編碼換行符
- 有方法得到一個字符/單詞/句子在一次,相同的語義無論底層文檔格式如何
- 意識到線條末尾處的連字符等含糊之處,句首可以是縮寫詞的一部分,也可以是句子的結尾。
如果它只支持任何兩種格式,並且只支持上面的一些功能,我仍然很高興。
谷歌搜索一直沒有成功,但我會感到驚訝,如果不存在這樣的事情。 NLP人會用什麼來處理大量的真實世界文本?任何平臺/編程語言都可以,因爲這很難找到。開源,所以我可以貢獻是最好的。
(如果這被認爲是題外話收我至少會體會到什麼其他協議棧Exchange站點,或其他什麼論壇的建議問這樣的問題。)
是的,我猜想我希望能夠從現有的NLP工具或我自己的工具中訪問原始數據。它始終是多種文件格式和有損轉換爲純文本的功能,這一直讓我失望。現在查看這些鏈接......驚訝我在搜索中沒有找到Tika - 可能是我在感謝之後! – hippietrail