Solr CEL/Tika輸出的格式是什麼？以及如何解決它？

我正在使用Solr來索引DOC，DOCX和PDF文件。我已經啓用存儲的文本，我檢查出來。下面是從樣品DOC文件的結果：Solr CEL/Tika輸出的格式是什麼？以及如何解決它？

，一個移動用戶界面（UI）的軟件開發公司，總部設在劍橋，英國。公司整合後，高通重新命名其接口標記語言以及與之配套的集成開發環境（IDE）爲HYPERLINK 「http://en.wikipedia.org/w/index.php?title= UiOne & action = edit & redlink = 1「 * \」UiOne（page does not exist）「uiOne **。 2009年3月，高通告知其劍橋的工程技術人員，大多是從分工上HYPERLINK工作「http://en.wikipedia.org

該文件包含材料Wikipdia。我拍攝的全輸出上http://pastebin.com/8FL9eHJv

所以Solr的CE1的/提卡插入自己的格式，並格式化的結果，在搜索輸出。我怎樣才能解決這個問題，這樣的搜索結果（文本片段）將不包含露面格式化？

谷歌搜索告訴我，TIKA有幾種輸出格式，那麼這種方法呢？還是有一個插件可以在渲染結果之前過濾文本？

相關細節：我的配置是接近股票：我上傳的命令是

捲曲的蟒蛇變化的「http：//本地主機：8983/Solr的/更新/解壓？ literal.id = DOC-通&提交=真正的」 -F 「[email protected]」

我的schema.xml http://pastebin.com/VLz2uuDQ

我solrconfig.xml中http://pastebin.com/X2J2jj64

來源

2011-07-20 aitchnyu

您可以將您的SOLR配置發佈到與Tika交談的位上嗎？正如您發現的那樣，Tika支持以純文本，HTML和XHTML格式輸出，所以事情可能取決於您如何選擇配置SOLR來與Tika溝通 – Gagravarr

我編輯了我的問題以包含這些內容。但是我的配置接近庫存，我只是在schema.xml中修改了一些細節。 – aitchnyu

您使用的是什麼版本的SOLR？ Tika包括哪些版本？ – Gagravarr

您詢問有關在搜索結果中的超鏈接的額外項目。如果是，請嘗試更新solrconfig.xml中的提取請求句柄至

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

來源

2012-06-06 18:37:11 randroid

Solr CEL/Tika輸出的格式是什麼？以及如何解決它？

回答

相關問題