2010-07-25 37 views
9

我正在尋找一個免費標記語料庫系統來培訓名稱實體識別。我發現的大部分(如紐約時報的)都很貴,而且沒有開放。誰能幫忙?免費標記語料庫進行命名實體識別

+0

在http://opendata.stackexchange.com/q/7250/1652(它沒有關閉)上提出了同樣的問題 – 2016-03-24 00:57:50

回答

1

dbPedia開放和自由

DBpedia的是維基百科建立,這是一個非常大的語料庫。在所有dbPedia titles dump上構建涉及rdfs:label的三元組的Lucene索引。

+2

作爲其他答案狀態之一,DBpedia不是帶標籤的語料庫。 – 2012-07-12 20:32:54

+0

2012年(和今天)我的評論是真實的,但這可能在未來發生變化。如果您對基於DBpedia的語料庫感興趣,您可能需要遵循Open Extraction Challenge(http://wiki.dbpedia.org/textext)爲維基百科文本中的DBpedia生成NIF輸出。 – 2017-07-19 21:10:50

2

Python NLTK有權訪問nltk.corpus.conll2000語料庫。調用conll2000.iob_words()返回(單詞,詞類,IOB)三元組的列表,其中IOB是內部實體/外部實體/實體開始格式中的標籤。

新聞專線上下文中總共有大約25萬字。

+0

我們是否也可以轉儲數據集以便在其他工具上使用它?例如GLample的[** Tagger **](https://github.com/glample/tagger)。 – user1412066 2017-01-04 08:15:27

+0

CONLL2000不標記命名實體。 – alexis 2017-07-17 21:39:11

相關問題