我正在尋找一個免費標記語料庫系統來培訓名稱實體識別。我發現的大部分(如紐約時報的)都很貴,而且沒有開放。誰能幫忙?免費標記語料庫進行命名實體識別
回答
dbPedia是開放和自由
DBpedia的是維基百科建立,這是一個非常大的語料庫。在所有dbPedia titles dump上構建涉及rdfs:label
的三元組的Lucene索引。
作爲其他答案狀態之一,DBpedia不是帶標籤的語料庫。 – 2012-07-12 20:32:54
2012年(和今天)我的評論是真實的,但這可能在未來發生變化。如果您對基於DBpedia的語料庫感興趣,您可能需要遵循Open Extraction Challenge(http://wiki.dbpedia.org/textext)爲維基百科文本中的DBpedia生成NIF輸出。 – 2017-07-19 21:10:50
Python NLTK有權訪問nltk.corpus.conll2000
語料庫。調用conll2000.iob_words()
返回(單詞,詞類,IOB)三元組的列表,其中IOB是內部實體/外部實體/實體開始格式中的標籤。
新聞專線上下文中總共有大約25萬字。
我們是否也可以轉儲數據集以便在其他工具上使用它?例如GLample的[** Tagger **](https://github.com/glample/tagger)。 – user1412066 2017-01-04 08:15:27
CONLL2000不標記命名實體。 – alexis 2017-07-17 21:39:11
有在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
的CoNLL 2003語料庫,它是名單上的語料庫的列表,是免費的,可從http://www.cnts.ua.ac.be/conll2003/ner/(註釋)和NIST(文本)。
我們是否必須遵循填表格的程序,向NIST發送申請以獲取此[** link **](http://trec.nist.gov/data/reuters/reuters.html)中所述的數據集?或者有其他選擇嗎? – user1412066 2017-01-04 08:10:04
- 1. 命名實體標記語料庫
- 2. C# - 免費Offliine語音識別庫(SDK)
- 3. 爲Java命名實體識別庫
- 4. 命名實體識別
- 5. 使用apache stanbol進行命名實體識別
- 6. 對大寫文本進行命名實體識別
- 7. 使用條件隨機場進行命名實體識別
- 8. 使用polyglot包進行命名實體識別在希伯來語
- 9. 指定實體識別的樣本大小黃金標準語料庫
- 10. 命名實體識別和命名實體提取有什麼區別?
- 11. 用於命名實體識別的NLTK
- 12. 使用WEKA命名實體識別
- 13. 聚焦命名實體識別(NER)?
- 14. 意大利的命名實體識別
- 15. 疾病命名實體識別
- 16. StanfordNLP:ArrayIndexOutOfBoundsException用於命名實體識別
- 17. c#命名實體識別器工具
- 18. 命名實體識別的語言無關工具
- 19. 免費的語言標識符服務?
- 20. 在Python中爲NLTK命名實體識別。識別NE
- 21. 命名實體識別與NLTK或斯坦福NER使用自定義語料庫
- 22. 免費中文命名實體數據集或免費中文NER系統
- 23. 是否有命名實體識別的任何C#庫?
- 24. 如何在OpenNLP命名實體識別工具中添加POS標記功能
- 25. 命名實體識別:如何標記訓練集並選擇算法?
- 26. 如何NLTK培訓新標籤命名實體識別
- 27. 斯坦福命名實體識別器中的多項命名實體
- 28. 命名實體識別:對於新/最新實體
- 29. 命名實體識別中實體的分割
- 30. 如何通過OpenNLP爲阿爾巴尼亞語實現命名實體識別?
在http://opendata.stackexchange.com/q/7250/1652(它沒有關閉)上提出了同樣的問題 – 2016-03-24 00:57:50