2013-03-06 39 views
0

我有一個作者列表。他們可能被列爲查找第一個字重複(匹配相似的姓氏)

  • LASTNAME, FIRSTNAME
  • LASTNAME, F.
  • LASTNAME, F

這將是一個正則表達式來查找所有具有相同LASTNAME的記錄?這樣我就可以決定是否合併記錄,或者如果它們是不同名字的作者,則可以將它們分開。找到姓氏

/^\w+/ 

使用此:

+1

您使用哪種編程語言?該列表的格式是什麼?列表是否已排序? – 2013-03-06 08:02:53

+0

@Shachi:你的編輯完全摧毀了這個問題。請小心點。無論誰批准他的編輯,請觀看你在做什麼。 – 2013-03-06 08:07:13

+1

哦,我真的很抱歉。 @TimPietzcker感謝您爲此發出了亮點。我會非常小心,這不會發生。 (我必須說錯誤的編輯不應該被批准。) – Shachi 2013-03-06 08:28:54

回答

0

這將始終在該行的開頭,這應該是最後一個名字的第一個字相匹配。然後執行如下操作:

  • 將最後的名稱和全名存儲在您的編程語言中可用的關聯數組或等效結構中。
  • 每當你來到一個新行,檢查你的名單中是否已經存在姓氏。
    • 如果存在,比較全名並決定要保留哪一個。
    • 如果不存在,請添加它。
+0

非常感謝!我會試試看。我正在使用Gephi來可視化GraphML數據,並且我需要清理那裏的一些文獻計量條目。 Gephi允許基於正則表達式搜索創建新列。 – 2013-03-08 08:06:34

相關問題