2012-01-21 54 views
20

是否有任何地方可以免費下載英語短語Treebank或低於100美元?我需要訓練數據以任何格式在英文中包含大量句法分析句子(> 1000)。基本上我所需要的只是這個句子中的單詞被詞性所識別。有免費的Treebank嗎?

+1

NLTK是否不包含Penn Treebank的龐大子集? –

+6

@暫停:實際上,這是一個非常有用的問題,答案也非常有用,因爲這些資源相對比較稀缺。請注意,這不是一個「比B更好」的問題,而是「在Y條件下列出所有類型X的資源」。 – rec

+1

最不發達國家收費的數據集是荒謬的...無論如何,請參閱https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –

回答

15

NLTK(for Python)提供了幾個treebanks for free

+0

謝謝+1。我不熟悉Python,請告訴我,我該如何解析這個* .pickle文件?是否有任何轉換器更像用戶友好的XML或純文本? – YMC

+2

什麼泡菜文件?樹庫是文本格式。例如,http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip。 – cyborg

+4

在這裏免費提供19種語言:http://universaldependencies.github.io/docs/ – CpILL

-1

Penn Treebank呢?我希望它是免費的或至少可以避免的。 http://www.cis.upenn.edu/~treebank/cdrom2.html

+1

它在LDC上花費$ 3150:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC

+7

它包括在內,以及很多其他的樹庫,在OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03這是免費的(雖然你必須支付分發成本)。 –

+0

您的配送成本如何? – CpILL