我正在使用Tika從幾種類型的文檔中提取文本。我知道Tika-1.10可以檢測.wps文件(java -jar tika-app-1.10.jar -m [.wps])正在返回元數據),但無法從.wps文件中提取文本(java -jar tika-app-1.10.jar -T [ .wps]文件不返回任何內容)。有沒有其他的方法可以從Java中的wps文件中提取文本? 任何幫助是極大的讚賞 感謝如何使用Apache Tika從.wps文件中提取文本?
0
A
回答
1
從Tika 1.13開始,我們沒有用於wps文件的解析器。我們確實支持舊的Works 7.0電子表格,但不支持wps。如果您希望我們添加支持,請在我們的JIRA上打開一個問題。 (我坦率地不知道需要多少工作)。
0
嘗試添加該PARAM:(用於提卡1.2)
--text-main Output plain text content (main content only)
對於提卡1.1:
--text Output plain text content
在這裏看到:https://tika.apache.org/1.2/gettingstarted.html
考慮使用1.8或1.9版本的apache tika。
+0
不幸的是這些都不起作用。我正在使用1.10,並嘗試過他們兩個,但沒有運氣 – Asad
相關問題
- 1. 在java中使用Apache Tika從PDF文件中提取文本
- 2. 如何從中提取內容。使用apache tika的Pst文件?
- 3. 使用TIKA從URL中提取文本
- 4. 使用apache tika從gzip文件中提取xml數據?
- 5. 使用Tika從.tex文件中提取文本
- 6. 無法使用tika從pdf文件中提取文本內容
- 7. 如何使用Apache PDFBox從PDF文件中提取文本
- 8. 如何使用apache poi從.doc文件中提取文本?
- 9. 無法使用TIKA提取文本
- 10. 從Tika提取大文本中的文本
- 11. 如何使用TIKA讀取大文件?
- 12. 如何從文件中使用apache tika獲取特定的元數據標籤
- 13. 如何使用tika 1.6獲取文本內容文件?
- 14. Apache Tika無法從大型PDF中提取全文內容
- 15. 使用Apache Tika解析XML文件
- 16. 使用apache solr和tika索引文本文件
- 17. 使用Apache Tika從文本/ PDF中刪除特殊字符
- 18. 如何使用Apache POI從PDF中提取原始文本?
- 19. 如何使用腳本從文本文件中提取值?
- 20. 如何迭代文件夾中的所有pdf文件以使用apache tika進行數據提取
- 21. 如何使Apache Tika在.java和.xml(etc.)文件中找到文本
- 22. 使用Apache Tika從PDF中提取圖像
- 23. 如何在使用Apache TIKA解析文本時指定編碼?
- 24. 如何使用PHP從HTML文件中提取所有文本?
- 25. 如何使用awk從文本文件中提取特定行?
- 26. 如何從使用C#的Word文件中提取文本?
- 27. 如何使用OpenXml從xlsx文件中提取文本
- 28. 如何使用PHP從PDF文件中提取文本?
- 29. 如何使用Python從文本文件中提取數據?
- 30. 如何使用Perl從文本文件中提取IP地址?
請編輯您的文章,並詳細說明您到目前爲止所嘗試的內容,如果有的話。 –