我正在使用一些非常大的報紙文章數據庫,我將它們放在MySQL數據庫中,我可以查詢它們。如何自動標記所需的內容,算法和建議
我現在正在尋找方法來幫助我使用一些描述性標籤來標記這些文章。
所有這些產品是從類似如下的URL訪問:
http://web.site/CATEGORY/this-is-the-title-slug
所以至少我可以使用類別來圖什麼類型的內容,我們正在處理。不過,我也想根據文章文字進行標記。
我最初的做法是這樣:
- 獲取所有文章
- 獲取所有的話,刪除所有標點符號,通過空間分割,併發生
- 算來對其進行分析和過濾常見的非 - 「我」,「這個」,「這些」,「他們的」等描述性詞彙。
- 當所有常用詞語被過濾出來時,唯一剩下的就是具有標籤價值的詞語。
但事實證明這是一個相當手動的任務,而不是一個非常漂亮或有用的方法。
這也受到空間分隔的單詞或名稱的問題,例如,如果1.000個文章包含名稱「John Doe」,1.000個文章包含「John Hanson」的名稱,那麼我只會獲得詞「約翰」,而不是他的名字和姓。
相關文章:http://readwrite.com/2011/05/13/tagger – 2015-02-16 00:36:37