apache-tika

0熱度

1回答

我嘗試通過Hibernate Search @TikaBridge索引pdf文件。根據文檔與TikaBridge註釋字段應該是任何如下因素類型： String - where the string value is interpreted as a file path URI - where the URI is interpreted as a resource URI byte[] ja

0熱度

1回答

使用Apache Tika解析大型PDF文件

我在使用Apache Tika解析大型PDF文件時遇到了一些問題。文件大小接近5 MB。這裏是代碼： package com.ibm.lnk.processor; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOExc

0熱度

1回答

Solr tika刪除換行

我正在使用Solika 5.3.1與tika來提取PDF索引。這個過程很有效，但它包含了很多換行符。無論如何使用分析器刪除這些換行符？這裏是我的分析代碼： <analyzer type="query">

0熱度

1回答

無法發佈Excel或Word文件中的Solr 6.3.0，在更改配置

雖然試圖張貼任何的Excel /字/ PDF文件，與Solr的 Unsupported ContentType: application/vnd.ms-excel Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin] 什麼需

0熱度

1回答

對Apache Tika解析器的OneNote支持

我希望能夠使用apache tika檢測.one，.onetoc，.onetoc2文件的MIME類型。然而從他們的文檔https://tika.apache.org/1.14/formats.html似乎並不支持它。使用Tika純粹的文件解析技術，我總是得到application/octet-stream而不是application/onenote。他們支持基於擴展名和基於名稱的內省來確定MIM

0熱度

1回答

Httpclient asp.net核心捲曲等效

我有一個ASP.Net HttpClient POST請求的問題。事實上，我想使用SolrCell在Solr中索引文檔。我用捲髮這樣的： curl 'http://localhost:8983/solr/my_collection/update/extract?literal.id=doc1&commit=true' -F "[email protected]/exampledocs/solr-

2熱度

1回答

如何把.doc或.docx文件轉換爲.pdf文件？

如何轉換.DOC或的.docx文件.PDF文件在Java中使用阿帕奇提卡？

0熱度

1回答

Apache Tika無法從大型PDF中提取全文內容

我想從使用apache tika的大型pdf（不掃描/柵格化pdf）文件中提取文本。但是，當我比較原始（從pdf）和提取的文本中提取文本後，我發現很多文本內容都丟失了。我曾嘗試使用setMaxStringLength(-1)和BodyContentHandler(-1)來最大化輸出。但仍然無法從pdf文件中提取全文內容。下面是我試過的兩個樣本。樣品：1 public class Extrac

0熱度

2回答

使用Solr索引阿拉伯語PDF文件

我正在嘗試使用Solr和Tika搜索文本文檔。一切工作正常的.docx，.pptx，.csv，.xlsx，..但是當涉及到.pdf文件，它返回空的內容。我無法弄清楚問題所在！

0熱度

1回答

如何使用Tikaparser解析Word文檔，並保存在一個XML內容或JSON

我解析使用下面的代碼Word文件中的Java ParseContext pcontext = new ParseContext(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = new Metadata(); InputStream stream = TikaInputStream.get(new