也許這與math.stacexhange有關,但我很害怕,我會得到一個公式來回答我不會下注的內容。我有我們的數據庫中的產品,我有不同的供應商在另一個表中的產品。減少發生的詞的重量
我想要的是將這些供應品與我們的產品配對(如果可能),或者爲我展示至少向我展示一個列表,其中匹配度很高。
我遍歷了所有的供應商產品,並用空格分解產品名稱,並將其存儲在一個表格中,並將其存儲在計數器中。
表似乎是這樣的。
+--------+-------------+---------------+-------+
| id | word | originalWord | count |
+--------+-------------+---------------+-------+
| 220950 | Tracer | Tracer | 493 |
| 220951 | Destroyer | Destroyer | 3 |
| 220952 | Avago5050 | Avago5050 | 4 |
| 220953 | mouse | mouse | 2535 |
| 220954 | TRAMYS44916 | /TRAMYS44916/ | 2 |
| 220955 | GameZone | GameZone | 16 |
| 220956 | Enduro | Enduro | 3 |
| 220957 | AVAGO | AVAGO | 10 |
| 220958 | 5050 | 5050 | 4 |
| 220959 | optical | optical | 2370 |
| 220960 | USB | USB | 6160 |
+--------+-------------+---------------+-------+
等等。當然,在我存儲的另一個表中,每個單詞的產品ID是什麼。
所以我想要的是通過發生來確定一個單詞的權重。
正如你所看到的,TRAMYS44916
這個詞只出現兩次,幾乎可以肯定這是一個零件編號,所以這是最重的單詞。它的重量應該是1.
比方說,最常發生的是USB 6160發生,所以它的重量應該是0.01或類似的東西,我想。
獲得單詞的所有權重的最佳方法是什麼?
其他供應商還有其他表格,因此分散度總是在變化。
是的,我認爲這將是我的朋友。謝謝,現在我不需要重新發明輪子。 – vaso123
我剛剛讀過tf-idf維基,我認爲它對我們來說已經足夠了,所以如果我把你的公式翻譯回來,那就意味着,''字數統計'* log(「文檔數包含單詞」/ number文件)'對嗎? – vaso123
實際上idf是其他方式,對不起,我會更新它,它應該是日誌(「文檔數量」/「包含單詞的文檔數量」) –