2014-01-29 64 views
0

我想爲exampledocs目錄中的某些XML文件添加標題。例如,manufacturers.xml文件包含<doc>標籤中的11行數據,但幾乎我看到的每個表都有一個標題,可能類似於「表1.爲個人消費者購買提供免費回收的計算機制造商列表等等等等...... 」。將字幕添加到solr XML exampledocs

我是否需要添加一個新的字段名稱=「caption」並重復11次(可能會非常長)還是有更好的方法在Solr中添加標題?

回答

0

如果你想在你的示例文檔中有一個名爲'caption'的字段,那麼你需要在那裏添加它們(還有其他方法可以添加這樣的字段,但是工作量更大,我不認爲你會希望追求)。

看一看在format

但是,只是爲了確保,如果你有一個數據庫,需要索引一些表格等,通常的方式去使用DIH,或者與SolrJ編程做API。你知道嗎?

編輯:讀您的評論後...那麼你應該看看DIH and Tika

+0

沒有數據庫,只是科學與表中的字幕PDF,EXCEL,文字,文本,HTML等格式。我可以導入行,但不知道處理文件中始終存在的標題的最佳方式 –