apache-tika

    0熱度

    1回答

    我看過這個鏈接: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是純文本,沒有Tika for Solr的任何風格來搜索。 是否有可能從Solr獲得文本樣式? 換句話說,我們需要在solr搜索後以原始樣式顯示文本。

    0熱度

    1回答

    您可以使用ExtractingRequestHandler和Tika與 壓縮文件格式(zip,tar,gz等)中的任何一種來提取索引內容嗎? 我使用curl發送solr archived.tar文件。 curl「 http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true

    2熱度

    1回答

    我新的Apache Solr實現,我想用它來索引PDF文件。我設法得到它,至今運行,我現在可以搜索添加PDF文件。 不過,我需要能夠檢索結果的搜索文本。 我發現在默認solrconfig.xml中正是有關的XML片段: <requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.Extractin

    2熱度

    1回答

    我們需要使用Java從給定文本文檔中獲取樹狀結構。使用的文件類型應該是通用的並且打開(rtf,odt,...)。目前我們使用Apache Tika從多個文檔中解析純文本。 我們應該使用哪種文件類型和API,以便我們能夠最可靠地獲得正確的結構解析?如果Tika可以做到這一點,我會很高興看到任何示範。 例如,我們應該得到這種從給定的文檔數據: Main Heading Heading 1

    1熱度

    2回答

    我使用apache tika檢測mime類型的音頻和視頻文件。由於某些原因,tika將wma文件的類型(Microsoft擁有的Windows Media Audio格式)報告爲application/octet-stream。你知道一個更好的方法來找到在Java中的MIME類型的文件?或者我可以使用tika自己來查詢這些信息嗎?

    5熱度

    1回答

    我使用ExtractingRequestHandler使用Solr爲PDF編制索引。我想在文檔中顯示頁碼和命中,例如「在第2,3和5頁的bar.pdf中找到術語foo。」 是否有可能在這樣的查詢結果中包含頁碼?

    7熱度

    1回答

    我正在使用Apache Tika對各種文檔(ODS,MS office,pdf)進行簡單處理。我必須得到至少: word count, author, title, timestamps, language etc. 這不是那麼容易。我的策略是使用6種類型的文檔的模板方法模式,我首先找到文檔類型,並基於該文檔分別處理它。 我知道apache tika應該刪除這個需求,但是文檔格式是完全不同的吧

    2熱度

    1回答

    我有一個理論問題。我有大量各種格式的文件(ODS,MS office,pdf,html),我想實施ECM系統,它不是一個文件管理系統,而是系統,它保存元數據和各種語言文件的數據以統一的方式(xhtml)轉換成文件系統和數據庫(只有元數據),並進行數據處理(索引,搜索)。 您會使用哪些技術?您將如何繼續?這是我的選擇: 僅僅使用Apache的提卡 - 解析這些文件並提取元數據和數據轉換成XHTML格

    1熱度

    1回答

    我曾經使用過Alfresco,Apache Tika上面有一個用於從文檔中提取元數據的簡單抽象層。 我決定只使用Jackrabbit,因爲我不需要這樣一個強大的解決方案。但除了jackrabbit-text-extractor模塊,我沒有看到對文檔元數據(都柏林核心屬性)的其他支持。 更多超過jackrabbit文本提取器maven神器版本2.0-SNAPSHOT似乎並沒有在SVN中繼。 可以請任

    5熱度

    2回答

    我想索引大量的pdf文檔。 我發現了一個參考,表明它可以使用Apache Tika完成,但不幸的是我找不到任何可以在Solr 1.4.1中配置Apache Tika的參考。 一旦配置,我確實配置了它,我怎樣才能直接發送文件到Solr而不使用curl? 我正在使用solrnet進行索引。