solr中的混合語言索引

我將混合語言pdf文檔編入索引，這意味着一個單獨的文檔由不同的語言組成，主要是英語部分和法語部分。我想根據語言將每個部分傳送到特定的字段。solr中的混合語言索引

所以，讓我們說「你好，我的名字叫尼古拉。濟voudrais extraire杜texte AVEC Solr的」將被收錄到兩個字段， Field_en「你好，我的名字是尼古拉斯」和Field_fr「濟voudrais extraire杜texte AVEC SOLR」。

目前，我只能在文檔級別（使用solr的LangDetect處理器）執行此操作，但對混合語言文檔無效。

如果太難了，我至少希望能夠在索引期間有選擇地刪除一種語言，並在字段中獲得單一語言。

來源

2017-06-26 Barth

據我所知在Solr中沒有內置的支持來做你想做的事，所以我的建議是使用處理程序的支持，只提取內容（而不索引它），通過追加extractOnly到請求。這會給你迴文件的內容。

然後，您可以解析內容並通過語言分類器運行每個句子 - 或者如果您想將它保留在Solr內部 - 爲每個句子都有一個文檔。根據文檔的數量和你要查詢的內容，這可能不是可行的。

來源

2017-06-26 20:09:13 MatsLindh

我有大約300頁的pdf文檔，共10頁。爲每個句子提供一份文件可能是一種選擇，前提是我可以重建整個文件，這對我來說有點棘手。 – Barth

您可以使用完整的文檔擁有一個獨立的核心，並在找到匹配項後找到它（對文檔ID有參考）。搜索和檢索不需要違背相同的集合/結構。您還可以使用第一個集合來獲得ID來執行faceting或其他操作，並對第二個集合中的這些id進行過濾。鑑於文件的數量與文件的解決方案。句子（可以改變語言的最小單位，真的）可以工作。 – MatsLindh

好的，我會考慮這個提議。目前我決定使用另一種工具（R）作爲「補丁解決方案」來運行清潔工作。謝謝！ – Barth

solr中的混合語言索引

回答

相關問題