用於自然語言處理的腳本數據集

我一直在網上搜索，並發現諸如CNN和NPR等媒體提供了訪問其成績單的鏈接。要獲得它們需要寫一些不太方便的抓取工具。原因是我試圖在我的自然語言處理項目中使用一些電視節目，採訪，廣播，電影的成績單作爲訓練數據。所以我想知道網絡上是否有任何收集或數據庫可供免費使用，以便我可以一次下載所有這些數據而無需自己編寫爬蟲程序？用於自然語言處理的腳本數據集

來源

2013-08-27 Kelvin Lee

您是否認爲刪除舊問題並重新發佈會使其不太可能被關閉？請閱讀常見問題http://stackoverflow.com/help/on-topic。數據庫的建議當然不應該在stackoverflow上提出。 –

嗨開爾文！請讓我們知道您已經完成了哪些研究。另外，從這裏注意（http://stackoverflow.com/help/dont-ask）允許一些主觀的問題，但是他們應該「邀請分享經驗而不是意見」，並且「堅持用事實和參考來支持意見「另請參閱此處的準則＃1（http://blog.stackoverflow.com/2010/09/good-subjective-bad-subjective/）以徵求建議。我禮貌地不同意@ThomasJungblut，因爲這不是要求推薦的地方。它應該是在一個知情和信息的方式。 – arturomp

@ThomasJungblut那麼你怎麼看這些問題：http://stackoverflow.com/questions/3340810/twitter-social-networking-dataset http://stackoverflow.com/questions/4251768/twitter-public-dataset而不是試圖在這裏提出無益和負面的評論，請專注於幫助人們完成有用的事情。 –

我會推薦British National Corpus。我還提到美國國家語料庫，但成績單隻有電話或面對面的談話 - 沒有消息，電視節目等。

您還提到了CNN和NPR。有1996年的成績單作爲LDC corpus here。

來源

2013-08-28 20:31:42 Yasen

這些數據集看起來不錯！謝謝@Yasen！ –

用於自然語言處理的腳本數據集

回答

相關問題