我期待在寫一個混搭應用程序,將採取從提交版(Subreddit)職稱和嘗試基礎上,他們很可能是有關在哪裏他們繪製的地圖,提取出一個國家的名字。我還想稍後在Twitter上添加諸如此類的內容。文本字符串
什麼我有困難的規劃是如何檢測最有可能的是相關國家從標題。我的第一個猜測是有一個國家列表及其匹配的排列組合(例如「英格蘭」匹配「英格蘭」等),並檢查文本中是否出現這些項目。但是,這可能會很慢,並且需要列出每個國家的所有格*名稱。我打算在Python中這樣做(以便學習使用它),所以我想知道是否存在a)一個能夠做到這一點(並且我可以從中學習)的庫或b)更多明顯的方法來做到這一點?
爲了讓我在這裏工作的輸入類型的想法是一些樣本,我想要擺脫他們:
- 「好了,他們不能逮捕我們所有人 - 給中指英國法律體系(PIC)「
- 關鍵字:英國(英國)
- 」民意調查:維基解密阿桑奇領先時代‘年度人物’ - 阿桑奇,一個澳大利亞人是誰在美國五角大樓附近發佈有關伊拉克和阿富汗戰爭的軍事祕密文件後,五角大樓的一個刺激分子截至週五收到了21,736張選票。「
- 關鍵詞:阿富汗,伊拉克,[澳大利亞](阿富汗,伊拉克,[澳大利亞]) - 澳大利亞將難以趕上了作爲主要無關,但這是可以接受的,我的目的
- 「網絡對諾貝爾和平獎網站發起攻擊,保持優雅,中國。「
- 關鍵字:中國(中國)
- 「猶太醫生拒絕爲患者動手術,發現患者的手臂紋身納粹後走出手術室的。」
- 關鍵詞:無 - 我的目的
*這可能是一個錯誤的詞來使用
使用API可以獲取提交的用戶詳細信息? – alex 2010-11-13 02:19:25
Alex:我可能會在twitter上使用用戶的geoloc信息,但在這種情況下,我基本上只用標題工作。我正在研究主題索引,它看起來和我上次讀到的一樣複雜:) – Ross 2010-11-13 02:29:50
(1)s /所有格/形容詞/(2)如何區分「英語」是指國家,語言,還是人民? – 2010-11-13 04:36:47