0
抓取時,我們在解析大量PDF時遇到此問題。拋出的錯誤如截圖所示。Nutch/Solr - 文檔中至少包含一個巨大詞條=「content」
我試圖改變的「內容」到「text_general」或「串」,但無濟於事類型。
抓取時,我們在解析大量PDF時遇到此問題。拋出的錯誤如截圖所示。Nutch/Solr - 文檔中至少包含一個巨大詞條=「content」
我試圖改變的「內容」到「text_general」或「串」,但無濟於事類型。
通常,在處理PDF和OCR時,由於文本提取是在Nutch內部自動進行的(使用Apache Tika),所以很有可能發生這種情況。我建議使用solr.TruncateTokenFilterFactory
,它自Solr 4.8起可用,並將截斷任何令牌到特定的長度。
<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>
在你的情況下,選擇一個足夠大的值,不應該影響從你的文本中提取的其他令牌。
在另一方面,它會更好只是,如果你能做到這一點,在這種情況下,忽略此令牌使用solr.LengthFilterFactory
:
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LengthFilterFactory" min="3" max="7"/>
</analyzer>
在這種情況下,如果任何令牌掉出[3,7]
的範圍將被丟棄。