任何人都可以指向我用於分類的一些大型語料庫嗎?大分類文檔語料庫
但是,我不是指路透社或20個新聞組,我說的是GB大小的語料庫,而不是20MB或類似的東西。
我只能找到這個路透社和20個新聞組,這對我所需要的東西來說非常小。
任何人都可以指向我用於分類的一些大型語料庫嗎?大分類文檔語料庫
但是,我不是指路透社或20個新聞組,我說的是GB大小的語料庫,而不是20MB或類似的東西。
我只能找到這個路透社和20個新聞組,這對我所需要的東西來說非常小。
文本分類評價最流行的數據集:
然而數據集以上不符合 '大' 的要求。下面的數據集可能會符合您的條件:
Commoncrawl你可以通過提取在元標記特定的關鍵字,並適用於文檔分類文章建立一個大型語料庫。
Enron Email Dataset你可以在這裏做各種不同的分類任務。
Topic Annotated Enron Dataset。不是免費的,但已經標記,並滿足您的大語料庫要求
您可以瀏覽其他公開datasets here
除上述以外,您可能需要開發自己的corpus.I將發佈的新聞語料建設者後來這個週末,將幫助您開發基於你所選擇的主題
更新定製語料庫:
創造了我上面提到的定製語料庫器模塊,但忘了012掛靠
提供了一個答案。請接受或評論,如果它沒有幫助 – Skillachie