TF-IDF (term frequency - inverse document frequency)是信息檢索的主要部分。雖然這不是一個合適的模型,並且在將新術語引入到語料庫時似乎會崩潰。當查詢或新文件有新詞時,人們如何處理它,尤其是在頻率較高的情況下。在傳統的餘弦匹配下,這些對整個匹配沒有影響。tf-idf和以前未見的術語
3
A
回答
2
呃,不,不會分解。
說我有兩個文件,一個是「黃鼠狼山羊」和B「芝士地鼠」。如果我們其實是代表這些爲載體,它們可能看起來像:
A [1,1,0,0]
B [0,0,1,1]
,如果我們已經分配這些向量在索引文件中,是的,當需要添加新術語時,我們遇到了一些問題。但它的訣竅是,該向量從不存在。關鍵是inverted index。
只要不影響餘弦匹配的新術語,這可能是真實的,具體取決於你的意思。如果我用查詢「mar猴功夫」搜索我的(A,B)語料庫,cor猴和功夫都不存在於語料庫中。因此,代表我的查詢的向量將與集合中的所有文檔正交,並得到不好的餘弦相似度分數。但考慮到沒有任何條款匹配,這似乎很合理。
1
當你談論「分解」時,我認爲你的意思是新術語對相似性度量沒有影響,因爲它們在原始詞彙表定義的向量空間中沒有任何表示。
處理這種平滑問題的一種方法是考慮將詞彙固定到更小的詞彙表,並將所有比特定閾值更少的詞語視爲屬於特殊_UNKNOWN_
詞語。
但是,我不認爲你的「分解」的定義是非常明確的;你能澄清你的意思嗎?如果你能清楚這一點,也許我們可以討論解決這些問題的方法。
相關問題
- 1. TFIDF與以前預處理的數據
- 2. 前端和後端術語
- 3. 術語未定義
- 4. Node.JS和術語
- 5. 鍵和術語
- 6. 在數學中收集常見術語
- 7. 常見術語模糊查詢
- 8. 意見分類選擇兄弟術語
- 9. TypeError:術語未定義?
- 10. JavaScript/JQuery =奇怪的函數定義,以前從未見過的語法?
- 11. 術語來區分可以/不可以引用未定義內存的語言
- 12. ASCII術語和HTML
- 13. 如何修改wordpress搜索以便查詢分類術語和分類術語?
- 14. AS3:一個術語是未定義的
- 15. Cloudsearch模糊的術語和短語
- 16. 以前未見過的Facebook登錄提示。對sdk的更改?
- 17. 是否可以直接修改術語頻率/術語向量?
- 18. 「=」(等號)之前和之後的術語名稱?
- 19. 術語:術語'saga'的含義
- 20. 從數據庫中提取以前未見過的記錄
- 21. 相關的技術術語
- 22. Elasticsearch術語過濾器,但前綴爲
- 23. 常見SIMD技術
- 24. sklearn.LabelEncoder與之前從未見過的值
- 25. (術語)「Contention」和「Contented」鎖
- 26. MySQL和SQL Server術語
- 27. 並行和併發術語
- 28. Sharepoint術語和名稱
- 29. SQL Server和Oracle術語
- 30. Logstash和ElasticSearch術語標記
與Peter Norvig討論這個問題[有一篇相關的Facebook技術討論](http://www.facebook.com/video/video.php?v=644326502463)。在關於細分的部分(約5:30),他實際上掩蓋了這個問題,他說:「如果你遺漏了一個單詞 - 如果這是你以前從未見過的單詞,那麼你必須做一些小技巧」 。這暗示這是一個已知的問題,並不是完全無關緊要的解決方案,因爲他沒有告訴我們訣竅是什麼。 – hippietrail 2012-10-18 10:04:10