apache-tika

0熱度

1回答

我看過這個鏈接： http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是純文本，沒有Tika for Solr的任何風格來搜索。是否有可能從Solr獲得文本樣式？換句話說，我們需要在solr搜索後以原始樣式顯示文本。

0熱度

1回答

使用Solr CELL的ExtractingRequestHandler從包格式索引/提取文件

您可以使用ExtractingRequestHandler和Tika與壓縮文件格式（zip，tar，gz等）中的任何一種來提取索引內容嗎？我使用curl發送solr archived.tar文件。 curl「 http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true

2熱度

1回答

檢索提取的文本使用Apache Solr實現

我新的Apache Solr實現，我想用它來索引PDF文件。我設法得到它，至今運行，我現在可以搜索添加PDF文件。不過，我需要能夠檢索結果的搜索文本。我發現在默認solrconfig.xml中正是有關的XML片段： <requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.Extractin

2熱度

1回答

使用Java解析文檔結構

我們需要使用Java從給定文本文檔中獲取樹狀結構。使用的文件類型應該是通用的並且打開（rtf，odt，...）。目前我們使用Apache Tika從多個文檔中解析純文本。我們應該使用哪種文件類型和API，以便我們能夠最可靠地獲得正確的結構解析？如果Tika可以做到這一點，我會很高興看到任何示範。例如，我們應該得到這種從給定的文檔數據： Main Heading Heading 1

1熱度

2回答

使用java查找mime類型的wma文件

我使用apache tika檢測mime類型的音頻和視頻文件。由於某些原因，tika將wma文件的類型（Microsoft擁有的Windows Media Audio格式）報告爲application/octet-stream。你知道一個更好的方法來找到在Java中的MIME類型的文件？或者我可以使用tika自己來查詢這些信息嗎？

5熱度

1回答

使用Solr編制頁碼索引PDF

我使用ExtractingRequestHandler使用Solr爲PDF編制索引。我想在文檔中顯示頁碼和命中，例如「在第2,3和5頁的bar.pdf中找到術語foo。」是否有可能在這樣的查詢結果中包含頁碼？

7熱度

1回答

Apache Tika和文檔元數據

我正在使用Apache Tika對各種文檔（ODS，MS office，pdf）進行簡單處理。我必須得到至少： word count, author, title, timestamps, language etc. 這不是那麼容易。我的策略是使用6種類型的文檔的模板方法模式，我首先找到文檔類型，並基於該文檔分別處理它。我知道apache tika應該刪除這個需求，但是文檔格式是完全不同的吧

2熱度

1回答

如何利用以下ECM技術 - 比較

我有一個理論問題。我有大量各種格式的文件（ODS，MS office，pdf，html），我想實施ECM系統，它不是一個文件管理系統，而是系統，它保存元數據和各種語言文件的數據以統一的方式（xhtml）轉換成文件系統和數據庫（只有元數據），並進行數據處理（索引，搜索）。您會使用哪些技術？您將如何繼續？這是我的選擇：僅僅使用Apache的提卡 - 解析這些文件並提取元數據和數據轉換成XHTML格

1熱度

1回答

使用Apache Jackrabbit進行元數據提取

我曾經使用過Alfresco，Apache Tika上面有一個用於從文檔中提取元數據的簡單抽象層。我決定只使用Jackrabbit，因爲我不需要這樣一個強大的解決方案。但除了jackrabbit-text-extractor模塊，我沒有看到對文檔元數據（都柏林核心屬性）的其他支持。更多超過jackrabbit文本提取器maven神器版本2.0-SNAPSHOT似乎並沒有在SVN中繼。可以請任

5熱度

2回答

如何使用apache Solr配置Apache Tika 1.4.1

我想索引大量的pdf文檔。我發現了一個參考，表明它可以使用Apache Tika完成，但不幸的是我找不到任何可以在Solr 1.4.1中配置Apache Tika的參考。一旦配置，我確實配置了它，我怎樣才能直接發送文件到Solr而不使用curl？我正在使用solrnet進行索引。