2011-07-20 28 views
4

我正在使用Solr來索引DOC,DOCX和PDF文件。我已經啓用存儲的文本,我檢查出來。下面是從樣品DOC文件的結果:Solr CEL/Tika輸出的格式是什麼?以及如何解決它?

,一個移動用戶界面(UI)的軟件開發公司,總部設在劍橋,英國 。公司整合後,高通重新命名其接口 標記語言以及與之配套的集成開發 環境(IDE)爲HYPERLINK 「http://en.wikipedia.org/w/index.php?title= UiOne & action = edit & redlink = 1「 * \」UiOne(page does not exist)「uiOne **。 2009年3月,高通 告知其劍橋的工程技術人員,大多是從分工 上HYPERLINK工作「http://en.wikipedia.org

該文件包含材料Wikipdia。我拍攝的全輸出上http://pastebin.com/8FL9eHJv

所以Solr的CE1的/提卡插入自己的格式,並格式化的結果,在搜索輸出。我怎樣才能解決這個問題,這樣的搜索結果(文本片段)將不包含露面格式化?

谷歌搜索告訴我,TIKA有幾種輸出格式,那麼這種方法呢?還是有一個插件可以在渲染結果之前過濾文本?

相關細節:我的配置是接近股票: 我上傳的命令是

捲曲的蟒蛇變化 的「http://本地主機:8983/Solr的/更新/解壓? literal.id = DOC-通&提交=真正的」 -F 「[email protected]

我的schema.xml http://pastebin.com/VLz2uuDQ

我solrconfig.xml中http://pastebin.com/X2J2jj64

+0

您可以將您的SOLR配置發佈到與Tika交談的位上嗎?正如您發現的那樣,Tika支持以純文本,HTML和XHTML格式輸出,所以事情可能取決於您如何選擇配置SOLR來與Tika溝通 – Gagravarr

+0

我編輯了我的問題以包含這些內容。但是我的配置接近庫存,我只是在schema.xml中修改了一些細節。 – aitchnyu

+0

您使用的是什麼版本的SOLR? Tika包括哪些版本? – Gagravarr

回答

0

您詢問有關在搜索結果中的超鏈接的額外項目。如果是,請嘗試更新solrconfig.xml中的提取請求句柄至

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str> 
相關問題