斯坦福核心NLP使用PTB Tokenizer進行標記。但是,我想實現我自己的標記器。作爲其中的一部分,在我們指定註釋器的屬性文件中,我沒有把tokenize設置爲我想自己編寫Tokenizer並將輸出令牌放在 CoreAnnotations.TokensAnnotation.class
,set
方法中,以便ssplit稍後使用它們。但是,當我嘗試運行這個程序是失敗的說ssplit不能存在沒有標記器。我想知道是否有任何程序來實現自定義的Tokenizer?從Stanfordcorenlp庫實現標記器的標準程序是什麼?
0
A
回答
0
請確保您創建了一個使用自定義標記的Annotator(Annotator接口在edu/stanford/nlp/pipeline中);在這個例子中,我們會打電話給您的自定義註釋MyTokenizerAnnotator,並假設它是在包org.foo
當您生成StanfordCoreNLP管道,請務必將其添加到屬性:
props.set("customAnnotatorClass.mytokenize" , "org.foo.MyTokenizerAnnotator")
當您爲您的管道註釋,而不是「令牌化」,把「我的記號化」
props.set("annotators", "mytokenize, ssplit, pos, lemma")
確保Annotator.TOKENIZE_REQUIREMENT添加到該集合MyTokenizerAnnotator的requirementsSatisfied()方法回報,這將告訴您的自定義標記生成器滿足了記號化需求的管道,將停止SSPLIT投訴
供您參考,這裏有一些相關的類的javadoc,你一定要看看TokenizerAnnotator.java實施如果你要建立自己的分詞:
http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/pipeline/Annotator.html
http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/pipeline/TokenizerAnnotator.html
請讓我知道,如果你需要更多幫助!
相關問題
- 1. D標準庫的現狀是什麼?
- 2. SystemJS實現什麼標準?
- 3. 什麼是C++中的標準延遲/終結器實現?
- 4. 爲什麼度量標準實現需要性能度量標準庫?
- 5. 爲什麼GNU C Library稱爲C標準庫的實現?
- 6. 實用程序庫的日誌記錄標準
- 7. 爲什麼C++標準庫不包含哈希表實現?
- 8. 爲什麼Java標準庫不實現toString方法?
- 9. 爲什麼Web服務是實現SOA的首選標準?
- 10. 什麼是toString實現的最佳標準樣式?
- 11. D庫的實際標準位置是什麼
- 12. NLTK感知器標記器的標記集是什麼?
- 13. LLVM統一標準類庫的實現
- 14. 原因四標準庫的實現
- 15. 標記Docker鏡像的標準是什麼?
- 16. 將域模型標記爲貧血的標準是什麼?
- 17. 什麼是從Oracle函數返回記錄的標準方式?
- 18. 標準庫和標準模板庫有什麼區別?
- 19. 從現有NSArray創建新NSArray的標準約定是什麼?
- 20. 什麼是一些C++標準庫使用最佳實踐?
- 21. 標準庫實現可以專用於標準類型嗎?
- 22. 什麼是爲應用程序設置數據庫的更好方法?標準化與現實世界
- 23. 什麼ECMAScript 6/7標準在Firefox中實現而不是在Chrome中實現?
- 24. 標記界面的內部實現是什麼?
- 25. Python標準庫真的是標準嗎?
- 26. 關於C++標準庫實現
- 27. 什麼是「標記的DFA」?
- 28. 如何實現一個包的標準記錄器和argparser
- 29. Android - 現在實現該選項卡的標準方式是什麼?
- 30. 什麼是Groovy Console/jdbc驅動程序標準的類路徑?