我有一個數據集,看起來像這樣:NLTK:文本分類使用自定義功能設置
featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]],
...
identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]}
另外,我有標籤的同組文件的字典:
labelDict = {identifier1: label1,
...
identifierN: labelN}
我想找出最合適的nltk容器,我可以將這些信息存儲在一個地方,並無縫應用nltk分類器。
此外,在此數據集上使用任何分類器之前,我還希望在此功能空間上使用tf-idf過濾器。
參考和文檔將會有所幫助。