我使用掃描目錄中的原始文本數據。 下面是一個例子:在原始文本中粘貼字符串行
ABADIE-LANDEL (Pierre) — 1920 — né à Paris. — 17, rue Campagne-Première
ABOU (Albert) — 1930 — né à Marseille.
— 41, rue de Seine, 6e.
ANGER (Jacques) — 1925 — né à Paris. — 33, rue Vineuse, 16e.
ANTHONE (Armand) — 1908 — né à Paris. — 4, avenue Victor-Hugo
Rue des Tournelles
ANTRAL (Jean) — 1920
這是偶爾的線,包括地址提到的名單。
數據被導入爲R與:
readlines ("clipboard", encoding = " latin1 ")
- 我能夠識別線,包括大寫字母不同的正則表達式
[A-ZÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝYÆO][A-ZÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝYÆO |']
或藝術家姓名(ICU )
[\p{Uppercase Letter}][\p{Uppercase Letter}|']
- 我能夠識別線,包括藝術品
^[0-9] + [\ s]的[^之二]`
- 我能夠提取的藝術家的名字
".+(?=- [0-9]{4})"
或
(.+)[0-9]{4}.+ # with backreference \1
- 更多的數據,這裏的數據來自1930年的目錄樣本:
https://docs.google.com/document/d/1nF3CQmZbDsCGKMp_OgZymxWIfoOx5xrNdTmDXZANwuc/edit?usp=sharing
我希望我能粘貼ADRESS子的作品,但我的最終目標是創建一個data.frame對象,結構如下:
第1列:NAME藝術家和姓氏;
第2列:補充劑(地址,國籍......)
3列:作品或更好的... ...
專欄3:1的工作
第4列2工作等
感謝您提前你的幫助。
你總是有4個字段?你能用'「 - 」'分開嗎? – Mariano
我仍然不確定你想要做什麼。你能提供一個最小可行的數據例子和一個期望輸出的例子嗎? –
你希望從上面的例子中得到什麼輸出? (用代碼示例顯示) –