2013-03-31 60 views
-1

我試圖想到一個算法,可以通過一段文本尋找例如關鍵字,我有話數組搜索的:標籤生成算法

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday']; 

我要挑出來的重要的話比如「Andy,Murray,David,Ferrer,Sunday,Open,Final」等等,但是我對英文技術方面的知識有限,所以我不知道我應該忽略的單詞類型。

有沒有其他的好方法可以從文本中找到標籤? /你知道的話,我應該被忽視等

PS的類型我寧願任何代碼是在C++但那不是必須的:)

+0

你還沒有寫任何代碼,或者你只是在尋找一個算法?你是什​​麼意思的標籤?像Twitter一樣? – 2013-03-31 14:23:51

+0

標籤我只是指關鍵字,像我建議的重要詞。但我基本上只需要失去像「是」,「和」等字我只是想知道是否有任何預先構建的算法來處理這個對我來說 – user1956455

+0

歡迎來到StackOverflow。這個問題是不適合該網站的。這裏的問題應該是*特定技術問題*關於*實際代碼*。這個問題是模糊的,並不是真的關於主題,並且可能會被關閉。 –

回答

3

Information Retrieval領域中的經典的方式這樣做是使用tf-idf model

  • 的TF部分表明了多少次,每次重複一詞在 文件/句子 - 越「好」 - 因爲它表明文本中的重要性。
  • idf組件指示集合中有多少個文檔中有這個詞,這個數字越低 - 這個詞越重要(因爲如果一個罕見的詞出現在文本中,它可以幫助您使用這個詞來對於直覺而言,將文檔與其他文檔相比更好一些 - 「the」這個詞很可能對文檔沒有提及,idf值確保它的權重很小)。