2011-08-19 19 views
1

我想爲資源不足的語言構建NLP語料庫,因爲沒有可用於NLP研究的數據。任何人都可以建議,如何構建或繼續使其成爲標準的NLP語料庫,任何標準方法或論文或鏈接。 在此先感謝如何開始爲NLP研究構建語料庫

+0

你到目前爲止發現或嘗試了什麼?語料庫語言學有許多不同的領域,還有許多不同的數據收集方法。對於更少或更少的「數字」語言而言,它在現場工作方面更加勞動密集,而且通常不是程序員的一個區域。 – Iterator

+0

我嘗試工作的語言的數字資源非常少。所以我正在努力爲NLP的研究目的而構建一個,毫無疑問,這將是一項艱鉅的任務,但我也需要技術信息,或者是否有任何標準格式來爲不同大學的英語語言構建語言庫。 –

+0

你真的應該諮詢一個語言學系,尤其是在收集語料較少的語料庫方面的專家。這通常由碩士或博士生作爲一個漫長過程的一部分進行。坐下來重做並不容易。這並不意味着要儘可能地勸阻你,因爲它反映了收集這樣的數據相當昂貴,例如,一千個句子(或者如果你願意的話可以是百萬字)。有一個已經執行的良好計劃有助於降低成本並提高數據的信噪比。 – Iterator

回答

2

我建議在華盛頓大學曾與賓夕法尼亞大學一起工作,並且是帽子專家,或者賓夕法尼亞州的一些人,與費霞聯繫。

在樹形庫上構建完整的解析和標記並不是一項簡單的任務。你究竟想要做什麼?目標是什麼? -parsing/tagging? - 語義? -信息提取? -phonetics?

老實說,根據評論,這聽起來像是一個整個語言學家團隊的項目。