2017-07-26 27 views
0

我想要一個直觀的方式來理解爲什麼TF-IDF詞彙表中的每個單詞都表示爲單獨的維度。爲什麼TF-IDF詞彙單詞表示爲座標軸/維度?

爲什麼我不能將所有單詞的TF-IDF值加在一起並將其用作文檔的表示形式?

我對我們爲什麼這樣做有基本的瞭解。
蘋果=/=橘子
但顯然我不太清楚它說服別人!

回答

1

最終所有的NLP都是任意的。如果您想爲短語/句子/文檔中的所有單詞添加tf-idf值,並且發現所得數字對於您嘗試執行的某項任務有用,則可以自由地這樣做。但是這個數字對於大多數標準的NLP任務來說可能不會很有用,比如搜索,摘要,情感分析等等。很難用單個數字來表示短語/句子/文檔的含義。

通過將短語/句子/文檔表示爲一個向量,它對於詞彙表中的每個單詞都有一個單獨的行,您可以利用向量/矩陣代數來表示您在解決NLP問題時可能想要執行的一些標準操作。例如,可以計算代表2個文檔的向量之間的餘弦相似度,並用它來判斷這2個文檔的相似程度。

您可能感興趣的其他內容:有一個名爲word2vec的NLP概念,它可以讓您將每個單詞表示爲不同的數字向量,然後讓您添加/減去它們以發現它們之間的語義關係。

例如,它可能會說

king - man + woman ≈ queen 

您可以在https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/

閱讀更多關於這
相關問題