2017-04-14 111 views
0

爲了安全起見,並看到辛勤工作的成果,需要正確格式化數據的哪些功能?Wapiti/CRF ++數據集格式

我有這個datasettemplate,手動標記爲NER。

就CRF ++的培訓而言,使用生成的模型進行測試會得到0%正確的結果。使用Wapiti的結果相同。

問題,應該修改模板文件嗎?或者也需要在訓練數據集中添加POS標籤。

此外,如果模型應該打折字套管而標記,應在訓練數據集反映其全部,使得下殼體被執行。但是它會不會影響某些從大寫形式中衍生出來的句子。
在這方面有點不清楚。

PS - 針對像http://cliff.mediameter.org/這樣的模型,其中NER標記爲與套管無關。但不能使用他們的模型。

+0

我有訓練的模型,並想測試它。 請問您還可以分享您的測試數據嗎? 您的Github賬戶有500多個回購券,我找不到合適的回扣。 – user2238884

回答

0

訓練數據太小(幾乎是47個句子),格式也不正確,因爲句子以空行結束,但是以空格 - 製表符結束,這可能會使crf ++將整個文件作爲單個文件學習句子。

試試這個http://paste.ubuntu.com/24537692/

此外,您可以分享您的測試數據?