2013-08-27 51 views
3

我一直在網上搜索,並發現諸如CNN和NPR等媒體提供了訪問其成績單的鏈接。要獲得它們需要寫一些不太方便的抓取工具。原因是我試圖在我的自然語言處理項目中使用一些電視節目,採訪,廣播,電影的成績單作爲訓練數據。所以我想知道網絡上是否有任何收集或數據庫可供免費使用,以便我可以一次下載所有這些數據而無需自己編寫爬蟲程序?用於自然語言處理的腳本數據集

+2

您是否認爲刪除舊問題並重新發佈會使其不太可能被關閉?請閱讀常見問題http://stackoverflow.com/help/on-topic。數據庫的建議當然不應該在stackoverflow上提出。 –

+2

嗨開爾文!請讓我們知道您已經完成了哪些研究。另外,從這裏注意(http://stackoverflow.com/help/dont-ask)允許一些主觀的問題,但是他們應該「邀請分享經驗而不是意見」,並且「堅持用事實和參考來支持意見「另請參閱此處的準則#1(http://blog.stackoverflow.com/2010/09/good-subjective-bad-subjective/)以徵求建議。我禮貌地不同意@ThomasJungblut,因爲這不是要求推薦的地方。它應該是在一個知情和信息的方式。 – arturomp

+0

@ThomasJungblut那麼你怎麼看這些問題:http://stackoverflow.com/questions/3340810/twitter-social-networking-dataset http://stackoverflow.com/questions/4251768/twitter-public-dataset而不是試圖在這裏提出無益和負面的評論,請專注於幫助人們完成有用的事情。 –

回答

2

我會推薦British National Corpus。我還提到美國國家語料庫,但成績單隻有電話或面對面的談話 - 沒有消息,電視節目等。

您還提到了CNN和NPR。有1996年的成績單作爲LDC corpus here

+0

這些數據集看起來不錯!謝謝@Yasen! –