2012-09-03 81 views
0

考慮一個Solr的指數具有以下字段:審議重複配置領域

<fields> 
    <field name="id" type="uuid" indexed="true" stored="true" default="0"/> 
    <field name="user" stored="true" type="string" multiValued="false" indexed="true"/> 
    <field name="text" stored="true" type="textmulti" multiValued="false" indexed="true"/> 
    <field name="media" stored="true" type="string" multiValued="false" indexed="true"/> 
</fields> 

我會考慮一個新的索引文件是一種欺騙(因此被拒絕)如果存在具有當前文檔相同的usertext字段,不管idmedia字段的內容是什麼。具有匹配usertext文件是不夠的,被認爲是一種欺騙,它必須是既usertext

我已經通過Solr wiki上的Document Duplication DetectionXML Messages for Updating a Solr Index閱讀,但我仍然沒有看到如何配置這個。有任何想法嗎?我正在使用美妙的solr-php-client通過PHP連接到Solr。

謝謝。

回答

1

可能你有一些理由不這樣做,但你可以使用的用戶和文本ID的串聯,然後你就不需要,如果你不覆蓋

+0

謝謝使用重複檢測作爲Solr的會爲你您。實際上,我曾考慮過使用這些字段的串聯或散列作爲唯一的ID,但我想要開發一個更通用的解決方案,以便我將來也能使用。 – dotancohen