我使用apache tika檢測mime類型的音頻和視頻文件。由於某些原因,tika將wma文件的類型(Microsoft擁有的Windows Media Audio格式)報告爲application/octet-stream。你知道一個更好的方法來找到在Java中的MIME類型的文件?或者我可以使用tika自己來查詢這些信息嗎?
我正在使用Apache Tika對各種文檔(ODS,MS office,pdf)進行簡單處理。我必須得到至少: word count, author, title, timestamps, language etc.
這不是那麼容易。我的策略是使用6種類型的文檔的模板方法模式,我首先找到文檔類型,並基於該文檔分別處理它。 我知道apache tika應該刪除這個需求,但是文檔格式是完全不同的吧