2010-03-01 35 views
3

我需要做一個關於計算語言學課程的項目。是否有任何有趣的「語言學」問題需要足夠的數據來處理使用Hadoop map reduce。解決方案或算法應該嘗試分析並提供「lingustic」域的一些見解。但它應該適用於大數據集,以便我可以使用hadoop。我知道有一個用於hadoop的python自然語言處理工具包。計算語言學項目使用Hadoop MapReduce的想法

回答

2

如果您在某些「非常規」語言(在「已經執行了有限數量的計算語言學的語言」的意義上)中擁有大型語料庫,重複已經爲非常流行的語言(例如英語,中文,阿拉伯語......)是一個非常合適的項目(特別是在學術環境中,但它也可能非常適合工業領域 - 當我在IBM Research進行計算語言學時,將意大利語語料庫和重複[[在羅馬相對較新的IBM科學中心]]的工作非常類似於英國的Yorktown Heights [我已參與其中]的IBM研究團隊所做的工作。

硬工作通常是找到/準備這樣的語料庫(儘管IBM意大利全心全意幫助我與擁有相關數據的出版公司聯繫,但這絕對是我當時工作中最重要的部分)。

所以,這個問題很重要,只有你可以回答它:你有哪些語料庫可以訪問,或者可以訪問(和清理等),特別是在「非常規」語言中?如果你所能做的只是例如英語,使用已經流行的語料庫,那麼做新穎而有趣的工作的機會當然更難,雖然當然可能會有一些。

順便說一句,我假設你嚴格考慮處理「書面」文本,對吧?如果你有中語料庫口語材料(最好良好的成績單),機會是無窮的(還沒有關於處理文字對白少得多的工作,如參數化在同一個書面文字由不同的母語發音變種 - 的確,這些問題往往不在提及在本科CL課程!)。

+0

想法是不錯,但我找了一個月或最多半月的項目一個相當短的時間框架。有任何想法嗎?我在考慮如果大規模文檔的文檔分類可能是一個好主意。 – 2010-03-02 20:32:48

+0

@Aditya,沒有我所要求的重要澄清(您可以使用哪些大型語料庫進行這項工作,特別是在較少探索的語言中?),提供*相關*建議是不可能的。我不明白爲什麼你選擇不回答「這個問題」,這個問題「很大」,正如我在上面的第3段所述。 – 2010-03-02 22:33:14

2

爲60K OA論文下載300M的話由生物醫學中心出版。嘗試發現命題態度和相關的情感建構。要點在於生物醫學文獻充斥着對衝和相關的構造,因爲很難對生物世界及其生物 - 它們的形式和功能以及遺傳學和生物化學作出平坦的陳述性陳述。

我對Hadoop的感受是它是一個需要考慮的工具,但是在完成設定目標的重要任務後要考慮。你的目標,策略和數據應該決定你如何進行計算。當心錘子尋找研究釘子的方法。

這是我的實驗室努力工作的一部分。在CL

  • 鮑勃Futrelle

    BioNLP.org

    東北大學

2

一個計算密集型的問題是從推斷大語料庫語義。其基本思想是獲取大量文本並從其分佈中推斷出單詞(同義詞,反義詞,下位詞,上位詞等)之間的語義關係,即它們出現或接近的單詞。

這涉及到大量的數據預處理,然後可能涉及許多最近鄰居搜索和N×N比較,這些比較非常適合MapReduce式並行化。

看一看這個教程:

http://wordspace.collocations.de/doku.php/course:acl2010:start