0
我將混合語言pdf文檔編入索引,這意味着一個單獨的文檔由不同的語言組成,主要是英語部分和法語部分。我想根據語言將每個部分傳送到特定的字段。solr中的混合語言索引
所以,讓我們說「你好,我的名字叫尼古拉。濟voudrais extraire杜texte AVEC Solr的」將被收錄到兩個字段, Field_en「你好,我的名字是尼古拉斯」 和Field_fr「濟voudrais extraire杜texte AVEC SOLR」。
目前,我只能在文檔級別(使用solr的LangDetect處理器)執行此操作,但對混合語言文檔無效。
如果太難了,我至少希望能夠在索引期間有選擇地刪除一種語言,並在字段中獲得單一語言。
我有大約300頁的pdf文檔,共10頁。爲每個句子提供一份文件可能是一種選擇,前提是我可以重建整個文件,這對我來說有點棘手。 – Barth
您可以使用完整的文檔擁有一個獨立的核心,並在找到匹配項後找到它(對文檔ID有參考)。搜索和檢索不需要違背相同的集合/結構。您還可以使用第一個集合來獲得ID來執行faceting或其他操作,並對第二個集合中的這些id進行過濾。鑑於文件的數量與文件的解決方案。句子(可以改變語言的最小單位,真的)可以工作。 – MatsLindh
好的,我會考慮這個提議。目前我決定使用另一種工具(R)作爲「補丁解決方案」來運行清潔工作。謝謝 ! – Barth