我正在嘗試將scikit應用於自然語言處理,並且先閱讀一些教程。我找到了這一個http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/,它解釋瞭如何從一組文檔中獲得tfidf分數。如何使用scikit查找關於文檔的術語TF-IDF
但是我有一個問題,TF-IDF應該依賴於一個術語,該術語的文檔以及所有要分析的文檔的集合。例如,
因此,例如。在A和B兩個文件的集合中,如果我們使用文件A計算TF-IDF而不是相同的術語,但通過分析文件B的術語頻率,術語'馬'應該得到不同的TF-IDF得分。
如何使用scikit來計算關於特定文檔的術語的TF-IDF?