我需要幫助來訓練數據集,然後可以使用pos tagger通過標記進行標記。 我的輸入文件是 - kon_set1.txt 包含Konkani(印度語言)中的文本。如何訓練包含NLTK中文本行的輸入文件Python
ताजो स्वास आनी चकचकीत दांत तुमचें व्यक्तीमत्व परजळायतात.
दांत आशिल्ल्यान तुमचो आत्मविश्वासय वाडटा.
आमच्या हड्ड्यां आनी दांतां मदीं बॅक्टेरिया आसतात.
त्यो दांत बुरशे आनी स्वास घाणयारो करतात.
हांगा दिल्ल्या कांय सोंप्या सुचोवण्यांच्या आदारान तुमी तुमचे दांत नितळ आनी स्वास ताजो दवरूंक शकतात.
我想知道如何對這個數據集進行培訓。 以便我稍後可以使用訓練的數據使用POS標記進行標記。 感謝你。等待積極的迴應。
爲了訓練POS標記器,您需要手動標註POS數據。當你只有原始文本時,你應該如何訓練標記器! – Riyaz
@Riyaz,這不完全正確;已經有了無監督的PoS標記方法(請參閱下面的答案)。當然,問題是,如果結果符合應用的要求,那麼結果是否令人滿意。 – lenz
@lenz NLP是我的麪包和黃油,我應該知道這一點!我假設Ashay想用NLTK中的監督學習方法來訓練一個模型。我想,NLTK沒有任何無監督的學習方法。 – Riyaz