我目前正在探索從作者機構(考研文章)我的樣本數據看起來像抽取國名的可能性:提取國家名稱從作者機構
Mechanical and Production Engineering Department, National University of Singapore.
Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, U.K.
Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, UK.
Lilly Research Laboratories, Eli Lilly and Company, Indianapolis, IN 46285.
最初我嘗試刪除標點並將矢量拆分爲單詞,然後將其與來自維基百科的國名列表進行比較,但我沒有成功。
任何人都可以請建議我一個更好的方式嗎?我更喜歡R
中的解決方案,因爲我必須在R
中進行進一步分析並生成圖形。
如果您預處理R以外的文件,將其保存爲CSV,然後將R用於其餘部分,您可能會做得更好。 Google Refine是這類工作的絕佳工具。 – edmz 2011-03-15 21:30:51
'Google Refine'也很好用!感謝您的建議! – 2011-03-16 17:06:05