如何通過解析其網頁來確定遊戲是「街機」還是「運動」或「策略」?我正在談論網頁上託管的小型小型Flash遊戲。如何從網頁確定遊戲類型?
例如,看看這些網頁:http://www.miniclip.com/games/ski-safari/en/或http://www.2dplay.com/the-last-dino/the-last-dino-play.htm
是否有存在做某種「分類」的服務? 是否有現有的NLP算法可以提供幫助?
如何通過解析其網頁來確定遊戲是「街機」還是「運動」或「策略」?我正在談論網頁上託管的小型小型Flash遊戲。如何從網頁確定遊戲類型?
例如,看看這些網頁:http://www.miniclip.com/games/ski-safari/en/或http://www.2dplay.com/the-last-dino/the-last-dino-play.htm
是否有存在做某種「分類」的服務? 是否有現有的NLP算法可以提供幫助?
您可以從網頁中提取相關文字,並使用bag of words approach做分類。在最簡單的情況下,您只需爲每個遊戲類別和關鍵字列表定義遊戲類別。一個類別的關鍵字越多,該遊戲就越有可能屬於該類別。
如需更復雜的方法,請查看分類算法(例如樸素貝葉斯)和文本特定功能(例如tf-idf)。
另請注意,從頁面中提取相關文本在這裏很重要。例如,如果頁面包含關於該特定遊戲和相關新聞列表(描述其他遊戲)的幾個詞,則來自相關新聞的片段可能會降低您的準確度。
謝謝@friend。這當然給了我一個開始。 – mynk
問題太廣泛了嗎?我認爲這是一個非常罕見的問題。堆棧溢出僅僅意味着對常見問題的建議嗎? – mynk