2
我有一個包含作者所屬地址的數據集。地址有不同的長度。但是第一個逗號前面的信息是他所在機構的名稱,以及最後一個逗號後的國家。我想要做的是提取國家併爲其創建一個新變量。如何從字符串中提取特定信息
我在Stata中試過這段代碼。它的作用是提取機構的名稱。
generate splitat = strpos(institutions ,",")
generate str80 univ = substr(institutions, 1, splitat - 1)
我在想這個代碼是否也可以用來提取國家。 我以爲它可以從頭開始檢查,而不是從頭開始?
我的數據集看起來像下面的例子:
Natl Taiwan Univ, Inst Epidemiol, Taipei 106, Taiwan
Radboud Univ Nijmegen, Inst Water & Wetland Res, Dept Anim Ecol & Ecophysiol, NL-6525 AJ Nijmegen, Netherlands
那些誰看中的正則表達式會發現,'根country3 =正則表達式(1)如果regexm(院校,「^。*,([^,] *)$」)'也可以完成這項工作。 –
謝謝。你的兩條建議都非常有幫助。 –