apache-tika

    0熱度

    2回答

    我正在一個項目中,我需要從gz文件中使用apache tika [AM NEW TO TIKA]提取xml(站點地圖)數據。 fie的名字是類似sitemap01.xml.gz 我可以從正常的文本文件或html中提取數據,但我不知道如何從gz中提取xml並從xml中提取meta和數據... 我搜索過谷歌過去兩天。 我需要使用tika中的delegateParser從xml中提取數據嗎? 請指引我一

    6熱度

    3回答

    我在Ubuntu 10.04上運行Solr 1.4(通過apt-get solr-tomcat安裝),它似乎工作正常。我有一些困難找到任何連貫的信息,但如何索引文件。 Im新的SOLR讓我忍受! 我有一個文件夾(/ mnt /文件夾),這是一個裝載的Windows共享,其中包含Word和PDF文件,我想索引,最簡單的方法來索取SOLR索引整個文件夾? SOLR的文檔非常差,它不可能找到任何正確的教

    3熱度

    1回答

    我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔,但對於PDF,正在提取的內容爲空。我也嘗試了curl的extractOnly = true,並且它也返回空單元。 我已經在相同的文件上獨立使用了TIKA,並且提取內容非常好。不同之處在於獨立執行操作時,我使用的是Tika附帶的BodyContentHander,而不是

    5熱度

    2回答

    我是Symfony開發人員,我的Web服務器是Linux。我已經使用sfLucene插件。 索引PDF文件在Linux PHP服務器上搜索的最簡單方法是什麼? XPDF,通過SOLR sfLucene plugin branch 第3選項安裝like this Apache Tika? 謝謝!

    3熱度

    1回答

    我想讓Solr索引一個數據庫,其中一列是我希望建立索引的PDF文檔的文件名。我的配置如下所示: <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly=

    1熱度

    1回答

    我使用「名稱」,「標題」和「描述」字段索引SOLR中的帖子。我希望以後能夠使用Tika/ExtractingRequestHandler添加文件(如Word文檔或PDF)。 我知道我可以添加文件,像這樣:(或通過其他接口) 捲曲 'http://localhost:8983/solr/update/extract?literal.id=POST1 &提交=真正的' -F 「[email prote

    2熱度

    1回答

    索引pdf文檔的最佳方式是什麼?我應該通過將pdf文檔轉換爲txt來索引它們還是有更好的方式來索引pdf文件?