2017-06-30 48 views

回答

0

通常,在處理PDF和OCR時,由於文本提取是在Nutch內部自動進行的(使用Apache Tika),所以很有可能發生這種情況。我建議使用solr.TruncateTokenFilterFactory,它自Solr 4.8起可用,並將截斷任何令牌到特定的長度。

<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/> 

在你的情況下,選擇一個足夠大的值,不應該影響從你的文本中提取的其他令牌。

在另一方面,它會更好只是,如果你能做到這一點,在這種情況下,忽略此令牌使用solr.LengthFilterFactory

<analyzer> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
    <filter class="solr.LengthFilterFactory" min="3" max="7"/> 
</analyzer> 

在這種情況下,如果任何令牌掉出[3,7]的範圍將被丟棄。

相關問題