假設我有一個口號列表(簡短的多詞短語),並且人們已經爲他們最喜歡的那個投了票,我想評估哪些單詞(如果有的話)使一些口號比其他口號更受歡迎。什麼是實現這一目標的最佳方式?我的第一個想法是找到口號中的所有獨特單詞,並將每一個單詞作爲包含所述單詞的所有口號的平均投票數,但我認爲頻率也應以某種方式發揮作用以下應該是正確的:確定哪些單詞使短語流行的算法
- 如果單詞A只出現在獲得最多選票的口號中,並且單詞B僅出現在獲得第二最多的口號中,則單詞A更多地是「流行性生成」
- 但是,如果Word A只出現在排名最高的口號中,而Word B出現在排名第二和第三的口號中,則Word B應該贏,因爲它將更多口號推到頂端。
- 然而,如果單詞出現在頂部口號中的Word A在其他口號中應該仍然勝過三次出現的字B,例如,如果它們位於包的中間或下半部分(也就是說,需要在投票中獲得投票和頻率的平衡)。
我也想排除一般常見的詞(如「the」或「of」)。這與關於識別過去曾被問過的趨勢詞有關的問題有關,但與之不同的是,隨着時間的推移並不是一個因素。就文學而言,我很樂意指出這方面的正確方向,但我不確定要尋找什麼。這是其他人處理的一類問題嗎?
http://metaoptimize.com/qa上的人會對此有所瞭解。 – Frank 2010-12-04 00:48:53