我有一個大文本,我想分析這個文本並識別(例如,本文中存在的維基百科條目)。從文本中提取維基百科條目
我想用正則表達式,類似的:
pattern='New York|Barak Obama|Russian Federation|Olympic Games'
re.findall(pattern,text)
...等,但這將是數以百萬計的字符長,重不接受......
的我想過的其他方式是標記我的文本和搜索每個令牌的維基百科條目,但這看起來效率不高,尤其是如果我的文本太大...
任何想法如何在Python中做到這一點?
定義「維基百科條目」..你的意思是文本中存在維基百科文章?那麼問題可以有多個解決方案,並且是及時動態的! – wim 2012-08-07 09:16:44
是的,我的意思是文章名稱基本上是 – hmghaly 2012-08-07 09:18:41
在你給「奧運會」的例子中有一個關於「遊戲」和關於「奧林匹克」的wikipedia文章,你會在這種情況下做什麼代碼?返回3個條目?或只有1?問題是,你將通過不同長度的子串搜索文章,這很雜亂。你最終的結果可能是什麼? – 2012-08-07 09:20:54