計算語言學項目使用Hadoop MapReduce的想法

我需要做一個關於計算語言學課程的項目。是否有任何有趣的「語言學」問題需要足夠的數據來處理使用Hadoop map reduce。解決方案或算法應該嘗試分析並提供「lingustic」域的一些見解。但它應該適用於大數據集，以便我可以使用hadoop。我知道有一個用於hadoop的python自然語言處理工具包。計算語言學項目使用Hadoop MapReduce的想法

來源

2010-03-01 Aditya Andhalikar

如果您在某些「非常規」語言（在「已經執行了有限數量的計算語言學的語言」的意義上）中擁有大型語料庫，重複已經爲非常流行的語言（例如英語，中文，阿拉伯語......）是一個非常合適的項目（特別是在學術環境中，但它也可能非常適合工業領域 - 當我在IBM Research進行計算語言學時，將意大利語語料庫和重複[[在羅馬相對較新的IBM科學中心]]的工作非常類似於英國的Yorktown Heights [我已參與其中]的IBM研究團隊所做的工作。

硬工作通常是找到/準備這樣的語料庫（儘管IBM意大利全心全意幫助我與擁有相關數據的出版公司聯繫，但這絕對是我當時工作中最重要的部分）。

所以，這個問題很重要，只有你可以回答它：你有哪些語料庫可以訪問，或者可以訪問（和清理等），特別是在「非常規」語言中？如果你所能做的只是例如英語，使用已經流行的語料庫，那麼做新穎而有趣的工作的機會當然更難，雖然當然可能會有一些。

順便說一句，我假設你嚴格考慮處理「書面」文本，對吧？如果你有中語料庫口語材料（最好與良好的成績單），機會是無窮的（還沒有關於處理文字對白少得多的工作，如參數化在同一個書面文字由不同的母語發音變種 - 的確，這些問題往往不在提及在本科CL課程！）。

來源

2010-03-01 03:11:17

想法是不錯，但我找了一個月或最多半月的項目一個相當短的時間框架。有任何想法嗎？我在考慮如果大規模文檔的文檔分類可能是一個好主意。 – 2010-03-02 20:32:48

@Aditya，沒有我所要求的重要澄清（您可以使用哪些大型語料庫進行這項工作，特別是在較少探索的語言中？），提供*相關*建議是不可能的。我不明白爲什麼你選擇不回答「這個問題」，這個問題「很大」，正如我在上面的第3段所述。 – 2010-03-02 22:33:14

正如您所說，有一個稱爲NLTK的Python工具包，可以與dumbo一起使用以利用Hadoop。

PyCon 2010就這個問題進行了很好的討論。您可以使用下面的鏈接訪問講話中的幻燈片。

The Python and the Elephant: Large Scale Natural Language Processing with NLTK and Dumbo

來源

2010-03-01 07:05:22

爲60K OA論文下載300M的話由生物醫學中心出版。嘗試發現命題態度和相關的情感建構。要點在於生物醫學文獻充斥着對衝和相關的構造，因爲很難對生物世界及其生物 - 它們的形式和功能以及遺傳學和生物化學作出平坦的陳述性陳述。

我對Hadoop的感受是它是一個需要考慮的工具，但是在完成設定目標的重要任務後要考慮。你的目標，策略和數據應該決定你如何進行計算。當心錘子尋找研究釘子的方法。

這是我的實驗室努力工作的一部分。在CL

鮑勃Futrelle

BioNLP.org

東北大學

來源

2010-03-01 14:30:38

一個計算密集型的問題是從推斷大語料庫語義。其基本思想是獲取大量文本並從其分佈中推斷出單詞（同義詞，反義詞，下位詞，上位詞等）之間的語義關係，即它們出現或接近的單詞。

這涉及到大量的數據預處理，然後可能涉及許多最近鄰居搜索和N×N比較，這些比較非常適合MapReduce式並行化。

看一看這個教程：

http://wordspace.collocations.de/doku.php/course:acl2010:start

來源

2010-10-28 23:08:10 mrjf

計算語言學項目使用Hadoop MapReduce的想法

回答

相關問題