apache-tika

    4熱度

    2回答

    我的第一篇文章是堆棧溢出,所以請溫柔!我即將爲客戶啓動一個新的Ruby on Rails(3.1)項目。他們的要求之一是有一個搜索引擎,它將索引大約2,000個PDF,Word,Excel和HTML混合的文檔。 我曾希望爲使用的思維 - 獅身人面像或Texticle(最流行的https://www.ruby-toolbox.com/categories/rails_search.html),但據我

    0熱度

    1回答

    我正在使用名爲solr-php-client(http://code.google.com/p/solr-php-client/)的PHP庫與我的Solr服務器進行連接。我可以從文件中提取數據,存儲,並在其上進行搜索,但我似乎無法得到它讓我以我自己的數據添加到參數索引: $aParams = array ( "literal.ClassName_ms" => "File", "

    1熱度

    1回答

    我想在我的Java項目中集成Apache Tika。我需要從不同的文件格式(excel,doc,ppt等)獲取文本。 經過一番閱讀後,我明白構建tika的唯一方法是下載src文件並使用Maven構建它。我執行 「MVN安裝」 在Tika SRC(Apache的蒂卡-0.9-SRC)的根目錄下,但我得到這個錯誤: [INFO] Scanning for projects... Downloadin

    0熱度

    1回答

    我正在使用POI從Excel文件中提取數據。 (Excel工作表中的第5列包含文件系統中存在的文件的名稱) 我循環遍歷表的行(用POI提取單元格的內容),併爲每行創建Tika實例,然後解析指定的文件與提卡「parseToString(文件)」,第5欄時,該文件是Office文檔(EXCEL,PPT,Word)中我得到這個錯誤: Exception in thread "AWT-EventQueue

    11熱度

    2回答

    當我嘗試從我的PDF文件中提取文本時,它似乎隨機地在單詞之間插入空格。 我在這個頁面的下載部分下面的示例文件中使用PDFBOX-APP-1.6.0.jar(最新版本): http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我和其他幾個PDF文件嘗試,它似乎在幾頁上做同樣的事情。 我做到以下幾點: J

    1熱度

    1回答

    我試圖使用apache tika提取元數據,然後放入HashMap中。但是,我的代碼只獲取密鑰而不是該密鑰的值..例如..它僅存儲標題(作爲關鍵字)但不是它的價值,就像它存儲關鍵字(作爲關鍵字)而不是它的值一樣。 如果我試圖看看md包含的是什麼,它會顯示: - Description= title=Wireless Technology & Innovation | Mobile Technolo

    1熱度

    1回答

    我想使用Apache Tika解析使用ByteArrayInputStream的二進制文件的PDF文件...並開始獲取某些PDF文件的錯誤,對於一些它解析得非常好.. 早些時候我能夠使用Tika解析相同的pdf文件,但是現在當我嘗試使用ByteArrayInputStream時,我開始出現錯誤..我認爲ByteArray存在一些問題這是我正在獲取的錯誤.. org.apache.tika.exce

    0熱度

    1回答

    我試圖在將PDFBOX版本升級到1.6.0之後使用Apache Tika解析PDF文件...並且我開始爲幾個pdf文件獲取此錯誤。 有什麼建議嗎? java.io.IOException: expected='endstream' actual='' [email protected] at org.apache.pdfbox.pdfparser.BaseParser.parseCOS

    2熱度

    1回答

    <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version>0.9</version> </dependency> 我試圖添加此下方的依賴,而不是僅僅上述蒂卡的依賴性覆蓋Tika只有PDFBOX依

    0熱度

    2回答

    我正在使用solr 3.3,我想使用delta導入文件實體處理器和tika實體處理器。完整導入工作正常,但增量導入參數不導入新文檔。 感謝