我有N個不同的關鍵字,我跟蹤(爲了簡單起見,讓N = 3)。所以在GET狀態/過濾器中,我會在「track」參數中給出3個關鍵字。過濾從狀態/過濾器(流API)接收的鳴叫
現在我將收到的推文可以來自我提到的3個關鍵詞中的任何一個。 問題是,我想解決哪個推文對應哪個關鍵字。 即推文和關鍵字之間的映射(在「track」參數中提到)。
顯然,如果不對收到的推文進行任何處理,就無法做到這一點。
所以我想知道什麼是做這個處理的最好方法? 在推文中搜索關鍵字?大小寫不敏感?如果在同一個關鍵字中出現多個詞,例如:「Katrina Kaif」?
我目前正在制定一些正則表達式...
我想最好的辦法使用相同的邏輯(正則表達式等)被用於最初是狀態/過濾器API。如何知道Twitter API的狀態/過濾器使用什麼邏輯將推文與關鍵字進行匹配?
建議?幫幫我?
PS:我使用Python,Tweepy,正則表達式,MongoDB的/阿帕奇S4(分佈式計算)
對於較大的N正則表達式可能會非常痛苦。最簡單的方法是將文本轉換爲小寫,併爲每個關鍵字檢查推文的存在。如果你想檢查確切的匹配,那麼你可以標記你的推文,並得到你的關鍵字集和令牌集的交集。交集將是與推文匹配的關鍵字。 – cubbuk
@cubbuk:目前,我有N = 100.最好只在推文的「文本」部分搜索關鍵字,對嗎? – user1599964
是的,據我所知Twitter只匹配推文的文本部分,因此檢查文本部分將更適合您。 – cubbuk