solr-cell

5熱度

2回答

我想索引大量的pdf文檔。我發現了一個參考，表明它可以使用Apache Tika完成，但不幸的是我找不到任何可以在Solr 1.4.1中配置Apache Tika的參考。一旦配置，我確實配置了它，我怎樣才能直接發送文件到Solr而不使用curl？我正在使用solrnet進行索引。

6熱度

3回答

如何索引SOLR中的文檔？

我在Ubuntu 10.04上運行Solr 1.4（通過apt-get solr-tomcat安裝），它似乎工作正常。我有一些困難找到任何連貫的信息，但如何索引文件。 Im新的SOLR讓我忍受！我有一個文件夾（/ mnt /文件夾），這是一個裝載的Windows共享，其中包含Word和PDF文件，我想索引，最簡單的方法來索取SOLR索引整個文件夾？ SOLR的文檔非常差，它不可能找到任何正確的教

2熱度

2回答

使用Zend Lucene搜索Office 2003或更舊的文件

我知道已經有支持Office 2007文件的對象，但是是否有任何本機Office 2003或更早版本的支持？

3熱度

1回答

Solr ExtractingRequestHandler爲pdf文檔提供空白內容

我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔，但對於PDF，正在提取的內容爲空。我也嘗試了curl的extractOnly = true，並且它也返回空單元。我已經在相同的文件上獨立使用了TIKA，並且提取內容非常好。不同之處在於獨立執行操作時，我使用的是Tika附帶的BodyContentHander，而不是

0熱度

1回答

使用Solr CELL的ExtractingRequestHandler從包格式索引/提取文件

您可以使用ExtractingRequestHandler和Tika與壓縮文件格式（zip，tar，gz等）中的任何一種來提取索引內容嗎？我使用curl發送solr archived.tar文件。 curl「 http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true

3熱度

1回答

Solr的TikaEntityProcessor不能正常工作

我想讓Solr索引一個數據庫，其中一列是我希望建立索引的PDF文檔的文件名。我的配置如下所示： <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly=

5熱度

1回答

使用Solr編制頁碼索引PDF

我使用ExtractingRequestHandler使用Solr爲PDF編制索引。我想在文檔中顯示頁碼和命中，例如「在第2,3和5頁的bar.pdf中找到術語foo。」是否有可能在這樣的查詢結果中包含頁碼？

1熱度

1回答

SOLR Tika：將文件添加到現有記錄（ExtractingRequestHandler）

我使用「名稱」，「標題」和「描述」字段索引SOLR中的帖子。我希望以後能夠使用Tika/ExtractingRequestHandler添加文件（如Word文檔或PDF）。我知道我可以添加文件，像這樣：（或通過其他接口）捲曲 'http://localhost:8983/solr/update/extract?literal.id=POST1 &提交=真正的' -F 「[email prote

2熱度

1回答

索引pdf文檔

索引pdf文檔的最佳方式是什麼？我應該通過將pdf文檔轉換爲txt來索引它們還是有更好的方式來索引pdf文件？

2熱度

1回答

如何索引pdf的內容與SolrJ？

我試圖索引使用SolrJ一些PDF文檔如http://wiki.apache.org/solr/ContentStreamUpdateRequestExample描述，下面有代碼： import static org.apache.solr.handler.extraction.ExtractingParams.LITERALS_PREFIX; import static org.apache.