2016-07-02 65 views
2

我想限制斯坦福核心NLP中句子的最大長度。由於某種原因,它似乎並不尊重這個屬性。這個標誌是LexicalizedParser的一部分。但是我在課堂上使用了StanfordCoreNLP實例。想知道設置這個標誌的正確方法是什麼。設置斯坦福核心句子的最大長度核心

Properties properties = new Properties(); 
properties.put("annotators", "tokenize,ssplit,pos,lemma,ner"); 
properties.put("-maxLength", "100"); // does not work 
StanfordCoreNLP nap = new StanfordCoreNLP(properties); 
+0

進一步挖掘源代碼我發現praser.maxlen和pos.maxlen屬性在斯坦福核心NLP代碼中使用。但是當句子長度超出時,它並沒有拋出我期待的例外。 –

回答

2

目前,CoreNLP沒有通用的maxLength標誌。個人註釋者可能有一個像parse.maxlen,但如果句子太長,那就意味着只需跳過運行該註釋者。

+0

我在哪裏可以找到有關如何設置單個解析器的最大長度的信息?我目前遇到了問題,即我的機器在CoreNLP服務器下運行OOM - 並不是數據集太大,似乎服務器隨着時間的推移只是吃掉所有可用的內存,從外觀上看,它可能意味着句子是太長。 – displayname