我有一個巨大的名單的人的全名,我必須在巨大的文本中搜索。如何在文本中搜索某人的姓名? (啓發式)
只有部分名稱可能會出現在文本中。有可能是拼寫錯誤,錯誤類型或abreviated。文本沒有標記,所以我不知道文本中人名的起始位置。而且我不知道名稱是否會在文本中出現。
例子:
我有「巴拉克·侯賽因·奧巴馬」我的列表中,所以我在下面的文本,以檢查該名稱的出現:
- ...候選人巴拉克奧巴馬當選爲美國總統......(不完整)
- ...該候選人巴拉克侯賽因當選爲美國總統......(incomp勒特)
- ...候選人奧巴馬HO當選美國總統......(略)
- ...候選人奧巴馬ObaNa當選美國總統.. (拼寫錯誤)
- ...候選人奧巴馬OVama當選美國總統......(misstyped,B毗鄰V)
- ...候選人麥凱恩失去了選舉...(奧巴馬名字沒有出現)
Certanily沒有爲它確定的解決方案,但...
,這是什麼樣的搜索的一個很好的啓發?如果你不得不,你會怎麼做?
您可以定義「巨大文本」10 ** 12個字節,10 ** 15個字節,更多?有哪些資源可用(電腦時間,電力)? – jfs 2008-12-04 00:06:18
具有200頁+小字體的PDF文檔....做數學! – 2008-12-04 11:38:54
$ pdftotext file.pdf - | wc --chars – jfs 2008-12-04 18:05:33