如何開始爲NLP研究構建語料庫

我想爲資源不足的語言構建NLP語料庫，因爲沒有可用於NLP研究的數據。任何人都可以建議，如何構建或繼續使其成爲標準的NLP語料庫，任何標準方法或論文或鏈接。在此先感謝如何開始爲NLP研究構建語料庫

2011-08-19 Chang Meign

你到目前爲止發現或嘗試了什麼？語料庫語言學有許多不同的領域，還有許多不同的數據收集方法。對於更少或更少的「數字」語言而言，它在現場工作方面更加勞動密集，而且通常不是程序員的一個區域。 – Iterator

我嘗試工作的語言的數字資源非常少。所以我正在努力爲NLP的研究目的而構建一個，毫無疑問，這將是一項艱鉅的任務，但我也需要技術信息，或者是否有任何標準格式來爲不同大學的英語語言構建語言庫。 –

你真的應該諮詢一個語言學系，尤其是在收集語料較少的語料庫方面的專家。這通常由碩士或博士生作爲一個漫長過程的一部分進行。坐下來重做並不容易。這並不意味着要儘可能地勸阻你，因爲它反映了收集這樣的數據相當昂貴，例如，一千個句子（或者如果你願意的話可以是百萬字）。有一個已經執行的良好計劃有助於降低成本並提高數據的信噪比。 – Iterator

我建議在華盛頓大學曾與賓夕法尼亞大學一起工作，並且是帽子專家，或者賓夕法尼亞州的一些人，與費霞聯繫。

在樹形庫上構建完整的解析和標記並不是一項簡單的任務。你究竟想要做什麼？目標是什麼？ -parsing/tagging？ - 語義？ -信息提取？ -phonetics？

老實說，根據評論，這聽起來像是一個整個語言學家團隊的項目。

來源

2011-08-22 03:50:06 nflacco

如何開始爲NLP研究構建語料庫

回答

相關問題