2017-06-02 33 views
0

我有類似的文字:「這項研究是作爲工作,家庭和健康網絡(www.WorkFamilyHealthNetwork.org)的一部分進行的,該網絡由合作協議通過美國國立衛生研究院和疾病中心控制和預防:Eunice Kennedy Shriver國家兒童健康與人類發展研究所(Grant#U01HD051217,U01HD051218,U01HD051256,U01HD051276),國家老齡研究所(Grant#U01AG027669),行爲科學研究辦公室和國家職業研究所安全與健康(批准號U01OH008788,U01HD059773)「。我需要將捐助者與捐款號碼連接起來,例如:美國國立衛生研究院和疾病預防控制中心:Eunice Kennedy Shriver國家兒童健康與人類發展研究所 - U01HD051217,U01HD051218,U01HD051256,U01HD051276國立老齡化研究所 - U01AG027669。我認爲這是一個共同解決問題,並試圖訓練我自己的模型。任何想法我怎麼能做到這一點?我試圖按照這裏的指示(https://stanfordnlp.github.io/CoreNLP/coref.html#training-new-models),但由於他們使用C0NLL數據集,我沒有看到我可以如何將自己的數據轉換爲它們的格式。有人幫忙嗎?如何使用Stanford NLP(或其他軟件包)來培訓我自己的coref(共同參與決議)模型?

回答

-1

java -cp "*" -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -file input.txt -outputFormat conll

上面會給你conll格式數據

然後你就可以得到XML進行COREF並與conll合併以獲得完整的數據

相關問題