我需要做一個關於計算語言學課程的項目。是否有任何有趣的「語言學」問題需要足夠的數據來處理使用Hadoop map reduce。解決方案或算法應該嘗試分析並提供「lingustic」域的一些見解。但它應該適用於大數據集,以便我可以使用hadoop。我知道有一個用於hadoop的python自然語言處理工具包。計算語言學項目使用Hadoop MapReduce的想法
回答
如果您在某些「非常規」語言(在「已經執行了有限數量的計算語言學的語言」的意義上)中擁有大型語料庫,重複已經爲非常流行的語言(例如英語,中文,阿拉伯語......)是一個非常合適的項目(特別是在學術環境中,但它也可能非常適合工業領域 - 當我在IBM Research進行計算語言學時,將意大利語語料庫和重複[[在羅馬相對較新的IBM科學中心]]的工作非常類似於英國的Yorktown Heights [我已參與其中]的IBM研究團隊所做的工作。
硬工作通常是找到/準備這樣的語料庫(儘管IBM意大利全心全意幫助我與擁有相關數據的出版公司聯繫,但這絕對是我當時工作中最重要的部分)。
所以,這個問題很重要,只有你可以回答它:你有哪些語料庫可以訪問,或者可以訪問(和清理等),特別是在「非常規」語言中?如果你所能做的只是例如英語,使用已經流行的語料庫,那麼做新穎而有趣的工作的機會當然更難,雖然當然可能會有一些。
順便說一句,我假設你嚴格考慮處理「書面」文本,對吧?如果你有中語料庫口語材料(最好與良好的成績單),機會是無窮的(還沒有關於處理文字對白少得多的工作,如參數化在同一個書面文字由不同的母語發音變種 - 的確,這些問題往往不在提及在本科CL課程!)。
正如您所說,有一個稱爲NLTK的Python工具包,可以與dumbo一起使用以利用Hadoop。
PyCon 2010就這個問題進行了很好的討論。您可以使用下面的鏈接訪問講話中的幻燈片。
爲60K OA論文下載300M的話由生物醫學中心出版。嘗試發現命題態度和相關的情感建構。要點在於生物醫學文獻充斥着對衝和相關的構造,因爲很難對生物世界及其生物 - 它們的形式和功能以及遺傳學和生物化學作出平坦的陳述性陳述。
我對Hadoop的感受是它是一個需要考慮的工具,但是在完成設定目標的重要任務後要考慮。你的目標,策略和數據應該決定你如何進行計算。當心錘子尋找研究釘子的方法。
這是我的實驗室努力工作的一部分。在CL
鮑勃Futrelle
BioNLP.org
東北大學
一個計算密集型的問題是從推斷大語料庫語義。其基本思想是獲取大量文本並從其分佈中推斷出單詞(同義詞,反義詞,下位詞,上位詞等)之間的語義關係,即它們出現或接近的單詞。
這涉及到大量的數據預處理,然後可能涉及許多最近鄰居搜索和N×N比較,這些比較非常適合MapReduce式並行化。
看一看這個教程:
http://wordspace.collocations.de/doku.php/course:acl2010:start
- 1. 使用Hadoop MapReduce的項目構想
- 2. 矩陣計算使用hadoop mapreduce
- 3. 自然語言處理 - 初學者項目的想法
- 4. hadoop mapreduce距離計算
- 5. 在項目中學習語言?
- 6. 布爾計算器語言的語法
- 7. 使計算器使用C語言
- 8. Hadoop MapReduce appcache目錄
- 9. 使用高級着色語言的計算算法
- 10. 計算的sin(x)使用Fortran語言
- 11. 在hadoop mapReduce項目下設置pom.xml
- 12. ANTLR /語法問題:計算器語言
- 13. 計算C語言
- 14. Intellij想法中的同一項目中的多種語言
- 15. 途徑學習算法使用特定語言
- 16. 理想的語言使用?
- 17. 無法使用Eclipse創建MapReduce項目
- 18. 語法語法和語言學
- 19. 從哪裏開始想要學習特定項目的編程語言?
- 20. 使用的語法與訪客計算數學表達式
- 21. 編程語言項目使用方案
- 22. 如何設置intellij想法多語言項目
- 23. 你如何使用MapReduce/Hadoop?
- 24. 尋找計算機視覺中的課堂項目的想法
- 25. 科學計算軟件的管理語言
- 26. hadoop mapreduce
- 27. C#語言,計算器
- 28. 最佳格言計算機科學
- 29. 用於非MapReduce算法的Hadoop集羣並行
- 30. 我想使用Hadoop MapReduce來計算文本文件中「對單詞」的出現次數
想法是不錯,但我找了一個月或最多半月的項目一個相當短的時間框架。有任何想法嗎?我在考慮如果大規模文檔的文檔分類可能是一個好主意。 – 2010-03-02 20:32:48
@Aditya,沒有我所要求的重要澄清(您可以使用哪些大型語料庫進行這項工作,特別是在較少探索的語言中?),提供*相關*建議是不可能的。我不明白爲什麼你選擇不回答「這個問題」,這個問題「很大」,正如我在上面的第3段所述。 – 2010-03-02 22:33:14