2012-10-11 85 views
6

如何使用stanford分析器在java類中標記字符串?stanford nlp tokenizer

我只能找到從外部文件獲取文本的documentProcessor和PTBTokenizer的示例。

DocumentPreprocessor dp = new DocumentPreprocessor("hello.txt"); 
    for (List sentence : dp) { 
    System.out.println(sentence); 
    } 
    // option #2: By token 

    PTBTokenizer ptbt = new PTBTokenizer(new FileReader("hello.txt"), 
      new CoreLabelTokenFactory(), ""); 
    for (CoreLabel label; ptbt.hasNext();) { 
    label = (CoreLabel) ptbt.next(); 
    System.out.println(label); 
    } 

謝謝。

回答

6

PTBTokenizer構造函數採用的java.io.Reader,那麼你可以用一個StringReader解析文本

+0

你可以寫構造函數的代碼,我怎麼可以使用閱讀器與此有關。謝謝 – Naveen

+4

沒關係,這是給我的令牌:列表 rawWords = tokenizerFactory.getTokenizer(new StringReader(sentence))。tokenize(); System.out.println(rawWords.get(0).value()); – Naveen

+1

我花了一些時間來打開NetBeans,製作一個新的項目等...然後停電...該死... – CapelliC

相關問題