1
我想認識上,我有一些文本實體和我發現了很多的算法(NaiveBayes,隱馬爾可夫模型,條件隨機場等),但目前看來,幾乎都需要一個巨大的訓練數據的實體分類。有,做了實體識別分類算法並不需要整個文本的訓練數據?
我想知道是否有一些算法,可以無需在訓練數據文本識別,但也許只有代表我想識別數據,或者一些字符串模式,或另一種方式的話。
我想避免的唯一的事情是具有巨大的文本作爲訓練數據的必要性。
我想認識上,我有一些文本實體和我發現了很多的算法(NaiveBayes,隱馬爾可夫模型,條件隨機場等),但目前看來,幾乎都需要一個巨大的訓練數據的實體分類。有,做了實體識別分類算法並不需要整個文本的訓練數據?
我想知道是否有一些算法,可以無需在訓練數據文本識別,但也許只有代表我想識別數據,或者一些字符串模式,或另一種方式的話。
我想避免的唯一的事情是具有巨大的文本作爲訓練數據的必要性。
如果你有一個你想查找的命名實體類型的簡短列表(通常稱爲「地名詞典」),並且不希望手動註釋訓練數據,你應該研究引導命名實體識別的工作。您可以使用引導來擴展地名詞典或開發命名實體識別器。一些示例方法我在快速搜索中發現有下列材料:
有也一直在主動學習命名實體識別的研究有相當數量,它可以顯著減少需要,如果你決定做一些手工標註要進行註釋的訓練數據量。