我一直在使用Tika一段時間,我知道一個應該只使用Tika門面,默認或定製TikaConfig代表org/apache/tika/mime/tika-mimetypes.xml
文件。如何爲幾種文檔類型正確配置Apache Tika?
我的應用程序不允許任何文檔類型比html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg
,默認MediaTypes包括萬噸別人不同。
我們是否應該修改tika-mimetypes.xml,以便移除我們不需要的MimeTypes?然後據我所知它只會爲這些MimeType創建複合解析器和檢測器。
但是,當它提供不受支持的類型時會發生什麼?我應該抓住TikaException還是一些SAXException並拒絕該文件?
另外如何手動編輯tika-mimetypes.xml?它有1290 MimeTypes與大多可笑的第三方MimeTypes。他們爲什麼在那裏?
你對檢測,解析還是兩者都感興趣?只有tika-mimetypes.xml僅用於檢測步驟,但您似乎主要談論解析? – Gagravarr
但是在決定使用哪個解析器時需要它。看看TikaConfig()和AutoDetectParser(TikaConfig配置)構造函數。 Afaik這有點搞砸了。基於tika-mimetypes.xml中的mimeTypes,它會創建儘可能多的parserDecorator,它與tika-mimetypes.xml中的mimeTypes相同,除了實現Parser接口的那些外,它們是相同的。它們都是CompositeParser的一部分,每一個都只支持一個mimeType ... – lisak