可以使用什麼ML算法來訓練給定句子中的動作短語。NLP和ML短語提取
Sentence1:I want to play cricket
Label1: play cricket
Sentence2: Need to wash my clothes
Label2: wash clothes
我有一些〜2K句&相應的字句(標籤)數據和需要預測基於這些句子的另一個一堆。有人可以指導我如何使用NLP/ML來做到這一點嗎?哪一個Algo的使用相同? (最好是蟒蛇)
可以使用什麼ML算法來訓練給定句子中的動作短語。NLP和ML短語提取
Sentence1:I want to play cricket
Label1: play cricket
Sentence2: Need to wash my clothes
Label2: wash clothes
我有一些〜2K句&相應的字句(標籤)數據和需要預測基於這些句子的另一個一堆。有人可以指導我如何使用NLP/ML來做到這一點嗎?哪一個Algo的使用相同? (最好是蟒蛇)
看看NLTK的Naive Bayes Classifier, 它是多類的,你可以直接給它提供句子/標籤對。
NaiveBayesClassifier.train()
將需要培訓功能,我會開始 與功能只是在每個句子中的單詞。您可以使用更復雜的方法修改特徵選擇,直到獲得您想要的結果。
您可以使用nltk.classify.util.accuracy評估結果。記住將你的句子分成訓練和測試數據。
這裏的句子分類的過程:)
1規範化文本 - 把所有的文本爲小寫
2)刪除所有停用詞 - 確保只有相關的功能都留下
3 )令牌化的句子在unigram令牌
4)應用所產生的技術 - 嘗試不同而產生的模型/ lemmatizer把話說到他們的基數詞。看看哪一個最適合你的情況。例如:播放,播放,播放將轉換爲基本詞「播放」。這一步減少了功能的數量。
5)創建一個術語文檔矩陣的所有句子。 TDM的每一行對應於一個句子,並且TDM的每一列對應於句子的標記。 (有代表矩陣的所謂TF-IDF的格式文本的另一種方式)
6)這個名詞現在文件基體中含有標記爲列。你已經有了標籤。您現在可以開始訓練ML模型。我假設你知道如何做到這一點。