1
如何使用Apache Tika從.tex
文件中提取文本?示例文件是在http://www.tug.org/texshowcase/EulerGibbsDuhem.tex使用Tika從.tex文件中提取文本
提卡能夠正確地檢測內容類型爲application/x-tex
,但不從中提取任何東西。
我試圖命令
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
並且還下面的代碼片斷:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
謝謝,如果我找到這樣的圖書館,那麼我會打開一張票。 – nikhil500 2011-04-01 02:00:26