2017-01-19 52 views
2

當我在Wiki上看到關於tf–idf的消息時,我對「文檔」這個詞意味着什麼感到困惑。這是否意味着段落? 「「文檔」在NLP環境中意味着什麼?

」逆文檔頻率是單詞提供多少信息的度量,也就是說,該術語在所有文檔中是常見還是罕見,它是包含該單詞的文檔的對數縮放反分數,獲得將文件總數除以包含該術語的文件數,然後取該商的對數。「

回答

2

Documenttf-idf上下文通常可以被認爲是bag of words。在一個vector space model中,每個單詞都是高維空間中的維度,其中單詞向量的大小是單詞(詞語)在文檔中出現的次數。 A矩陣表示矩陣,其中行代表文檔,列代表術語,矩陣中的每個單元代表文檔中單詞的出現次數。希望很清楚。

0

「文檔」是一個不同的文本。這通常意味着每篇文章,每本書都是它自己的文檔。

如果您願意,您可以將單個段落甚至句子視爲「文檔」。這都是一個觀點問題。