標籤生成算法

-1

我試圖想到一個算法，可以通過一段文本尋找例如關鍵字，我有話數組搜索的：標籤生成算法

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

我要挑出來的重要的話比如「Andy，Murray，David，Ferrer，Sunday，Open，Final」等等，但是我對英文技術方面的知識有限，所以我不知道我應該忽略的單詞類型。

有沒有其他的好方法可以從文本中找到標籤？ /你知道的話，我應該被忽視等

PS的類型我寧願任何代碼是在C++但那不是必須的:)

來源

2013-03-31 user1956455

你還沒有寫任何代碼，或者你只是在尋找一個算法？你是什麼意思的標籤？像Twitter一樣？ – 2013-03-31 14:23:51

標籤我只是指關鍵字，像我建議的重要詞。但我基本上只需要失去像「是」，「和」等字我只是想知道是否有任何預先構建的算法來處理這個對我來說 – user1956455

歡迎來到StackOverflow。這個問題是不適合該網站的。這裏的問題應該是*特定技術問題*關於*實際代碼*。這個問題是模糊的，並不是真的關於主題，並且可能會被關閉。 –

在Information Retrieval領域中的經典的方式這樣做是使用tf-idf model。

的TF部分表明了多少次，每次重複一詞在文件/句子 - 越「好」 - 因爲它表明文本中的重要性。
idf組件指示集合中有多少個文檔中有這個詞，這個數字越低 - 這個詞越重要（因爲如果一個罕見的詞出現在文本中，它可以幫助您使用這個詞來對於直覺而言，將文檔與其他文檔相比更好一些 - 「the」這個詞很可能對文檔沒有提及，idf值確保它的權重很小）。

來源

2013-03-31 14:34:34 amit

標籤生成算法

回答

相關問題