Nutch/Solr - 文檔中至少包含一個巨大詞條=「content」

抓取時，我們在解析大量PDF時遇到此問題。拋出的錯誤如截圖所示。Nutch/Solr - 文檔中至少包含一個巨大詞條=「content」

我試圖改變的「內容」到「text_general」或「串」，但無濟於事類型。

通常，在處理PDF和OCR時，由於文本提取是在Nutch內部自動進行的（使用Apache Tika），所以很有可能發生這種情況。我建議使用solr.TruncateTokenFilterFactory，它自Solr 4.8起可用，並將截斷任何令牌到特定的長度。

<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>

在你的情況下，選擇一個足夠大的值，不應該影響從你的文本中提取的其他令牌。

在另一方面，它會更好只是，如果你能做到這一點，在這種情況下，忽略此令牌使用solr.LengthFilterFactory：

<analyzer> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
    <filter class="solr.LengthFilterFactory" min="3" max="7"/> 
</analyzer>

在這種情況下，如果任何令牌掉出[3,7]的範圍將被丟棄。

2017-06-30 11:40:09

回答