2017-06-26 67 views
0

我將混合語言pdf文檔編入索引,這意味着一個單獨的文檔由不同的語言組成,主要是英語部分和法語部分。我想根據語言將每個部分傳送到特定的字段。solr中的混合語言索引

所以,讓我們說「你好,我的名字叫尼古拉。濟voudrais extraire杜texte AVEC Solr的」將被收錄到兩個字段, Field_en「你好,我的名字是尼古拉斯」 和Field_fr「濟voudrais extraire杜texte AVEC SOLR」。

目前,我只能在文檔級別(使用solr的LangDetect處理器)執行此操作,但對混合語言文檔無效。

如果太難了,我至少希望能夠在索引期間有選擇地刪除一種語言,並在字段中獲得單一語言。

回答

0

據我所知在Solr中沒有內置的支持來做你想做的事,所以我的建議是使用處理程序的支持,只提取內容(而不索引它),通過追加extractOnly到請求。這會給你迴文件的內容。

然後,您可以解析內容並通過語言分類器運行每個句子 - 或者如果您想將它保留在Solr內部 - 爲每個句子都有一個文檔。根據文檔的數量和你要查詢的內容,這可能不是可行的。

+0

我有大約300頁的pdf文檔,共10頁。爲每個句子提供一份文件可能是一種選擇,前提是我可以重建整個文件,這對我來說有點棘手。 – Barth

+0

您可以使用完整的文檔擁有一個獨立的核心,並在找到匹配項後找到它(對文檔ID有參考)。搜索和檢索不需要違背相同的集合/結構。您還可以使用第一個集合來獲得ID來執行faceting或其他操作,並對第二個集合中的這些id進行過濾。鑑於文件的數量與文件的解決方案。句子(可以改變語言的最小單位,真的)可以工作。 – MatsLindh

+0

好的,我會考慮這個提議。目前我決定使用另一種工具(R)作爲「補丁解決方案」來運行清潔工作。謝謝 ! – Barth