solr-cell

    5熱度

    2回答

    我想索引大量的pdf文檔。 我發現了一個參考,表明它可以使用Apache Tika完成,但不幸的是我找不到任何可以在Solr 1.4.1中配置Apache Tika的參考。 一旦配置,我確實配置了它,我怎樣才能直接發送文件到Solr而不使用curl? 我正在使用solrnet進行索引。

    6熱度

    3回答

    我在Ubuntu 10.04上運行Solr 1.4(通過apt-get solr-tomcat安裝),它似乎工作正常。我有一些困難找到任何連貫的信息,但如何索引文件。 Im新的SOLR讓我忍受! 我有一個文件夾(/ mnt /文件夾),這是一個裝載的Windows共享,其中包含Word和PDF文件,我想索引,最簡單的方法來索取SOLR索引整個文件夾? SOLR的文檔非常差,它不可能找到任何正確的教

    2熱度

    2回答

    我知道已經有支持Office 2007文件的對象,但是是否有任何本機Office 2003或更早版本的支持?

    3熱度

    1回答

    我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔,但對於PDF,正在提取的內容爲空。我也嘗試了curl的extractOnly = true,並且它也返回空單元。 我已經在相同的文件上獨立使用了TIKA,並且提取內容非常好。不同之處在於獨立執行操作時,我使用的是Tika附帶的BodyContentHander,而不是

    0熱度

    1回答

    您可以使用ExtractingRequestHandler和Tika與 壓縮文件格式(zip,tar,gz等)中的任何一種來提取索引內容嗎? 我使用curl發送solr archived.tar文件。 curl「 http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true

    3熱度

    1回答

    我想讓Solr索引一個數據庫,其中一列是我希望建立索引的PDF文檔的文件名。我的配置如下所示: <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly=

    5熱度

    1回答

    我使用ExtractingRequestHandler使用Solr爲PDF編制索引。我想在文檔中顯示頁碼和命中,例如「在第2,3和5頁的bar.pdf中找到術語foo。」 是否有可能在這樣的查詢結果中包含頁碼?

    1熱度

    1回答

    我使用「名稱」,「標題」和「描述」字段索引SOLR中的帖子。我希望以後能夠使用Tika/ExtractingRequestHandler添加文件(如Word文檔或PDF)。 我知道我可以添加文件,像這樣:(或通過其他接口) 捲曲 'http://localhost:8983/solr/update/extract?literal.id=POST1 &提交=真正的' -F 「[email prote

    2熱度

    1回答

    索引pdf文檔的最佳方式是什麼?我應該通過將pdf文檔轉換爲txt來索引它們還是有更好的方式來索引pdf文件?

    2熱度

    1回答

    我試圖索引使用SolrJ一些PDF文檔如http://wiki.apache.org/solr/ContentStreamUpdateRequestExample描述,下面有代碼: import static org.apache.solr.handler.extraction.ExtractingParams.LITERALS_PREFIX; import static org.apache.