apache-tika

0熱度

2回答

我正在一個項目中，我需要從gz文件中使用apache tika [AM NEW TO TIKA]提取xml（站點地圖）數據。 fie的名字是類似sitemap01.xml.gz 我可以從正常的文本文件或html中提取數據，但我不知道如何從gz中提取xml並從xml中提取meta和數據... 我搜索過谷歌過去兩天。我需要使用tika中的delegateParser從xml中提取數據嗎？請指引我一

6熱度

3回答

如何索引SOLR中的文檔？

我在Ubuntu 10.04上運行Solr 1.4（通過apt-get solr-tomcat安裝），它似乎工作正常。我有一些困難找到任何連貫的信息，但如何索引文件。 Im新的SOLR讓我忍受！我有一個文件夾（/ mnt /文件夾），這是一個裝載的Windows共享，其中包含Word和PDF文件，我想索引，最簡單的方法來索取SOLR索引整個文件夾？ SOLR的文檔非常差，它不可能找到任何正確的教

3熱度

1回答

Solr ExtractingRequestHandler爲pdf文檔提供空白內容

我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔，但對於PDF，正在提取的內容爲空。我也嘗試了curl的extractOnly = true，並且它也返回空單元。我已經在相同的文件上獨立使用了TIKA，並且提取內容非常好。不同之處在於獨立執行操作時，我使用的是Tika附帶的BodyContentHander，而不是

5熱度

2回答

使用Lucene爲Symfony索引PDF文件

我是Symfony開發人員，我的Web服務器是Linux。我已經使用sfLucene插件。索引PDF文件在Linux PHP服務器上搜索的最簡單方法是什麼？ XPDF，通過SOLR sfLucene plugin branch 第3選項安裝like this Apache Tika？謝謝！

3熱度

1回答

Solr的TikaEntityProcessor不能正常工作

我想讓Solr索引一個數據庫，其中一列是我希望建立索引的PDF文檔的文件名。我的配置如下所示： <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly=

1熱度

1回答

SOLR Tika：將文件添加到現有記錄（ExtractingRequestHandler）

我使用「名稱」，「標題」和「描述」字段索引SOLR中的帖子。我希望以後能夠使用Tika/ExtractingRequestHandler添加文件（如Word文檔或PDF）。我知道我可以添加文件，像這樣：（或通過其他接口）捲曲 'http://localhost:8983/solr/update/extract?literal.id=POST1 &提交=真正的' -F 「[email prote

2熱度

1回答

索引pdf文檔

索引pdf文檔的最佳方式是什麼？我應該通過將pdf文檔轉換爲txt來索引它們還是有更好的方式來索引pdf文件？