2015-08-27 43 views
1

任何人都可以指向我用於分類的一些大型語料庫嗎?大分類文檔語料庫

但是,我不是指路透社或20個新聞組,我說的是GB大小的語料庫,而不是20MB或類似的東西。

我只能找到這個路透社和20個新聞組,這對我所需要的東西來說非常小。

+0

提供了一個答案。請接受或評論,如果它沒有幫助 – Skillachie

回答

1
+0

謝謝,但這似乎並不像標籤,分類準備好,數據集? – Marko

+0

你的標籤究竟是什麼意思? – maj

+0

@maj我的意思是一個文檔語料庫,您可以知道每個文檔所屬的類別,例如體育,歷史,音樂等。 – Marko

2

文本分類評價最流行的數據集:

然而數據集以上不符合 '大' 的要求。下面的數據集可能會符合您的條件:

  • Commoncrawl你可以通過提取在元標記特定的關鍵字,並適用於文檔分類文章建立一個大型語料庫。

  • Enron Email Dataset你可以在這裏做各種不同的分類任務。

  • Topic Annotated Enron Dataset。不是免費的,但已經標記,並滿足您的大語料庫要求

您可以瀏覽其他公開datasets here

除上述以外,您可能需要開發自己的corpus.I將發佈的新聞語料建設者後來這個週末,將幫助您開發基於你所選擇的主題

更新定製語料庫:

創造了我上面提到的定製語料庫器模塊,但忘了012掛靠