2015-09-29 135 views
0

我正在使用Tika從幾種類型的文檔中提取文本。我知道Tika-1.10可以檢測.wps文件(java -jar tika-app-1.10.jar -m [.wps])正在返回元數據),但無法從.wps文件中提取文本(java -jar tika-app-1.10.jar -T [ .wps]文件不返回任何內容)。有沒有其他的方法可以從Java中的wps文件中提取文本? 任何幫助是極大的讚賞 感謝如何使用Apache Tika從.wps文件中提取文本?

+1

請編輯您的文章,並詳細說明您到目前爲止所嘗試的內容,如果有的話。 –

回答

1

從Tika 1.13開始,我們沒有用於wps文件的解析器。我們確實支持舊的Works 7.0電子表格,但不支持wps。如果您希望我們添加支持,請在我們的JIRA上打開一個問題。 (我坦率地不知道需要多少工作)。

0

嘗試添加該PARAM:(用於提卡1.2)

--text-main  Output plain text content (main content only) 

對於提卡1.1:

--text   Output plain text content 

在這裏看到:https://tika.apache.org/1.2/gettingstarted.html

考慮使用1.8或1.9版本的apache tika。

+0

不幸的是這些都不起作用。我正在使用1.10,並嘗試過他們兩個,但沒有運氣 – Asad

相關問題