2011-06-03 91 views
6

我正在尋找一個C/C++替代品Apache Tika這是一個基於Java的框架。具體而言,我在一個框架下搜索文件肉體數據和結構化文本提取。經過一番網上搜索和瀏覽我已經是GNU libextractor和一堆文件解析提取文本數據的各個文件過濾器(pdftoext,xls2csv ..等)替代Apache Tika的C/C++

任何人都可以請推薦一個好的庫可比最接近到Apache的Tika?

感謝

回答

2

提卡具有網絡服務器模式,因此你可以使用它總是開始提卡,然後把它從你的C++代碼請求?另外,Tika還有一個CLI模式,因此每次都可以啓動一個新的Tika進程,並從管道讀取數據。

+0

理論上這是一個不錯的主意,但它有過記錄嗎?瞭解服務器模式可能需要通過代碼和討論組進行挖掘。文件似乎對Tika項目有點問題,這很不幸,因爲它看起來是一個全面的工具。 – Jason 2012-06-29 23:10:24

+0

可能僅在現在的代碼中記錄,因爲它正在積極開發中。如果你有興趣,最好的辦法是在郵件列表上詢問,這可能會促使其中一個提交者負責撰寫一些文檔:) – Gagravarr 2012-06-29 23:17:17

+1

對於任何未來的人來說,這個問題[現在已經被問到在Tika的用戶列表](http://mail-archives.apache.org/mod_mbox/tika-user/201206.mbox/%3C4FEF52DA.7070908%40consil.co.uk%3E) - 長期來說,線程將希望包含正確的答案! – Gagravarr 2012-07-01 00:26:14

1

KDE提供了一個名爲KFileMetaData的庫,它們在內部使用它們的文件索引器。它使用C++,Qt5並支持大多數基本格式,如 - ms-office-2007,odfs,pdfs,圖像,視頻,音頻和電子書。