apache-tika

    0熱度

    1回答

    我嘗試通過Hibernate Search @TikaBridge索引pdf文件。根據文檔與TikaBridge註釋字段應該是任何如下因素類型: String - where the string value is interpreted as a file path URI - where the URI is interpreted as a resource URI byte[] ja

    0熱度

    1回答

    我在使用Apache Tika解析大型PDF文件時遇到了一些問題。 文件大小接近5 MB。 這裏是代碼: package com.ibm.lnk.processor; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOExc

    0熱度

    1回答

    我正在使用Solika 5.3.1與tika來提取PDF索引。這個過程很有效,但它包含了很多換行符。無論如何使用分析器刪除這些換行符? 這裏是我的分析代碼: <analyzer type="query"> <!--<charFilter class="solr.MappingCharFilterFactory" mapping="mapping-FoldToASCII.txt"/>-->

    0熱度

    1回答

    雖然試圖張貼任何的Excel /字/ PDF文件,與Solr的 Unsupported ContentType: application/vnd.ms-excel Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin] 什麼需

    0熱度

    1回答

    我希望能夠使用apache tika檢測.one,.onetoc,.onetoc2文件的MIME類型。然而從他們的文檔https://tika.apache.org/1.14/formats.html似乎並不支持它。使用Tika純粹的文件解析技術,我總是得到application/octet-stream而不是application/onenote。 他們支持基於擴展名和基於名稱的內省來確定MIM

    0熱度

    1回答

    我有一個ASP.Net HttpClient POST請求的問題。 事實上,我想使用SolrCell在Solr中索引文檔。我用捲髮這樣的: curl 'http://localhost:8983/solr/my_collection/update/extract?literal.id=doc1&commit=true' -F "[email protected]/exampledocs/solr-

    2熱度

    1回答

    如何轉換.DOC或的.docx文件.PDF文件在Java中使用阿帕奇提卡?

    0熱度

    1回答

    我想從使用apache tika的大型pdf(不掃描/柵格化pdf)文件中提取文本。 但是,當我比較原始(從pdf)和提取的文本中提取文本後,我發現很多文本內容都丟失了。我曾嘗試使用setMaxStringLength(-1)和BodyContentHandler(-1)來最大化輸出。但仍然無法從pdf文件中提取全文內容。 下面是我試過的兩個樣本。 樣品:1 public class Extrac

    0熱度

    2回答

    我正在嘗試使用Solr和Tika搜索文本文檔。一切工作正常的.docx,.pptx,.csv,.xlsx,..但是當涉及到.pdf文件,它返回空的內容。我無法弄清楚問題所在!

    0熱度

    1回答

    我解析使用下面的代碼Word文件中的Java ParseContext pcontext = new ParseContext(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = new Metadata(); InputStream stream = TikaInputStream.get(new