免費標記語料庫進行命名實體識別

我正在尋找一個免費標記語料庫系統來培訓名稱實體識別。我發現的大部分（如紐約時報的）都很貴，而且沒有開放。誰能幫忙？免費標記語料庫進行命名實體識別

來源

2010-07-25 DantheMan

在http://opendata.stackexchange.com/q/7250/1652（它沒有關閉）上提出了同樣的問題 – 2016-03-24 00:57:50

dbPedia是開放和自由

DBpedia的是維基百科建立，這是一個非常大的語料庫。在所有dbPedia titles dump上構建涉及rdfs:label的三元組的Lucene索引。

來源

2010-07-25 17:35:23 ankitjaininfo

作爲其他答案狀態之一，DBpedia不是帶標籤的語料庫。 – 2012-07-12 20:32:54

2012年（和今天）我的評論是真實的，但這可能在未來發生變化。如果您對基於DBpedia的語料庫感興趣，您可能需要遵循Open Extraction Challenge（http://wiki.dbpedia.org/textext）爲維基百科文本中的DBpedia生成NIF輸出。 – 2017-07-19 21:10:50

Python NLTK有權訪問nltk.corpus.conll2000語料庫。調用conll2000.iob_words()返回（單詞，詞類，IOB）三元組的列表，其中IOB是內部實體/外部實體/實體開始格式中的標籤。

新聞專線上下文中總共有大約25萬字。

來源

2011-03-20 23:00:12 AndreiM

我們是否也可以轉儲數據集以便在其他工具上使用它？例如GLample的[** Tagger **]（https://github.com/glample/tagger）。 – user1412066 2017-01-04 08:15:27

CONLL2000不標記命名實體。 – alexis 2017-07-17 21:39:11

有在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

的CoNLL 2003語料庫，它是名單上的語料庫的列表，是免費的，可從http://www.cnts.ua.ac.be/conll2003/ner/（註釋）和NIST（文本）。

來源

2012-07-12 20:42:24

我們是否必須遵循填表格的程序，向NIST發送申請以獲取此[** link **]（http://trec.nist.gov/data/reuters/reuters.html）中所述的數據集？或者有其他選擇嗎？ – user1412066 2017-01-04 08:10:04

免費標記語料庫進行命名實體識別

回答

相關問題