2014-01-10 41 views
0

如何通過解析其網頁來確定遊戲是「街機」還是「運動」或「策略」?我正在談論網頁上託管的小型小型Flash遊戲。如何從網頁確定遊戲類型?

例如,看看這些網頁:http://www.miniclip.com/games/ski-safari/en/http://www.2dplay.com/the-last-dino/the-last-dino-play.htm

是否有存在做某種「分類」的服務? 是否有現有的NLP算法可以提供幫助?

+0

問題太廣泛了嗎?我認爲這是一個非常罕見的問題。堆棧溢出僅僅意味着對常見問題的建議嗎? – mynk

回答

1

您可以從網頁中提取相關文字,並使用bag of words approach做分類。在最簡單的情況下,您只需爲每個遊戲類別和關鍵字列表定義遊戲類別。一個類別的關鍵字越多,該遊戲就越有可能屬於該類別。

如需更復雜的方法,請查看分類算法(例如樸素貝葉斯)和文本特定功能(例如tf-idf)。

另請注意,從頁面中提取相關文本在這裏很重要。例如,如果頁面包含關於該特定遊戲和相關新聞列表(描述其他遊戲)的幾個詞,則來自相關新聞的片段可能會降低您的準確度。

+0

謝謝@friend。這當然給了我一個開始。 – mynk