2014-04-01 76 views
1

我一直在尋找這個解決方案,我有一些文檔(大約95),我試圖用GATE進行分類。我把它們放在一個叫做training_corpus的語料庫中,但是,在ANNIE註釋了語料庫之後,我必須回到每個文件中,選擇文檔中的所有標記,並創建一個名爲Mention的註釋,其中包含要素類型和值爲文件。例如:用JAPE註釋文檔

類型開始結束ID功能
提及0 70000 2588 {類型= NEG}

反正是有與戲言自動做到這一點?基本上,我想要選擇所有的標記並創建一個帶有特徵的新標註(type = class)。此外,該類將附加到文檔。由於有許多文檔,JAPE可以從文檔名稱中提取類並將其設置爲「提及」功能的值。示例文檔名稱爲neg_data1.txt,因此註釋將爲Mention.type = neg?

任何幫助將不勝感激。謝謝

回答

2

我認爲你自己回答了你的問題。如果類的賦值僅基於文本中存在的令牌 - 爲什麼不簡單處理GATE之外的文本? 例如創建一個xml文件,如: 文本,然後在訓練過程中使用它。 您也可以創建一個簡單的JAPE規則:a)將文件邊界內的文本(參見gate.Utils.length方法AFAIR) b)基於您的令牌的存在將創建一個新的Annotation實例, 。 一個抽象的例子:

Phase: Instance 
Input: Token 
Options: control = once 

Rule:Instance 
(
    {Token} 
):instance 
--> 
{ 
    AnnotationSet instances = outputAS.get("INSTANCE_ANNOTATION"); 
    FeatureMap featureMap = Factory.newFeatureMap(); 
    if (instances!=null&&!instances.isEmpty()){ 
     featureMap.put("features when annotation presented in doc"); 
    }else{ 
     featureMap.put("features when annotation not in doc"); 
    } 
    outputAS.add(new Long(0), new Long(documentLength), "Mention", featureMap); 

} 
+1

謝謝,我創建了一個XML和使用的標記的註解註釋我一套和它的工作。非常感謝。但是,我有很快的問題,如何在GATE GUI中一次加載多個文件(Gate文件)。感謝 – tigg

+1

@ user3183103立即加載所有文檔,您可以創建一個語料庫,然後點擊它並在彈出菜單中單擊「填充」。也許對於那些可以克服內存限制的大量文檔,你會考慮使用GATE數據存儲。 – andrey

+1

@andrey你真棒。非常感謝噓聲,感謝ashingel回答我的問題。謝謝一堆 – tigg