2011-03-15 88 views
1

如何使用Apache Tika從.tex文件中提取文本?示例文件是在http://www.tug.org/texshowcase/EulerGibbsDuhem.tex使用Tika從.tex文件中提取文本

提卡能夠正確地檢測內容類型爲application/x-tex,但不從中提取任何東西。

我試圖命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex 

並且還下面的代碼片斷:

File file = new File(fileName); 
Tika tika = new Tika(); 
String mimeType = tika.detect(file); 
pageContent = tika.parseToString(file); 

回答

0

提卡支持檢測所述.tex文件擴展名,但是不存在用於它解析器還,遺憾。

如果你可以找到一個好的Java庫(理想的Apache許可)解析.tex文件,那麼我建議你在Tika JIRA中打開一個新的增強請求(https://issues.apache.org/jira/browse/TIKA)並根據該庫請求一個Tex解析器。

+0

謝謝,如果我找到這樣的圖書館,那麼我會打開一張票。 – nikhil500 2011-04-01 02:00:26