從字段中刪除相似字符

我有File1.csv包含3000條記錄，從中我需要刪除與地址無關的字符。從字段中刪除相似字符

每條記錄從「&」或「A/O」開始。我需要清理我的「Address1」字段，如果該字段中沒有與地址相關的信息，我需要有空記錄。

實施例：

File1.csv: 

Address1 
&&2340 Clemb Street 
&&564 7th Street 
&&&10th Street 
A/O11th Street 
A/ONorth Street 
A/O/OSouth Street 
A/Ocareof 
A/Otttt 
A/Oyuyuyu 
A/Ouiuiuiuiui 
A/O/yuyyuyuyuyugggh 4510th Street 
&uhhhhhello 56 11th Street

我期待結果File1中-without A/O，A/O/O，A/Ouiuiuiui等：

File1.csv：

Address1 
2340 Clemb Street 
564 7th Street 
10th Street 
11th Street 
North Street 
South Street 
<blank record> 
<blank record> 
<blank record> 
<blank record> 
4510th Street 
56 11th Street

Thanx尋求幫助！

來源

2012-11-01 Hell_77

我很好奇，爲什麼你的數據看起來像這樣呢？ – flodel

請從CSV導入數據集並使用像'dput（head（my.dataset））'這樣的smth，以便我們可以使用它。 – aL3xa

幾乎肯定可以使用票友匹配模式，但gsub()及以下似乎得到與此數據集所做的工作：

x <- c('&&2340 Clemb Street', 
     '&&564 7th Street', 
     '&&&10th Street', 
     'A/O11th Street', 
     'A/ONorth Street', 
     'A/O/OSouth Street') 

gsub("&|A/O|/O", "", x) 
#----- 
[1] "2340 Clemb Street" "564 7th Street" "10th Street"  "11th Street"  
[5] "North Street"  "South Street"

簡介正則表達式可以發現here。

來源

2012-11-01 23:51:19 Chase

追逐：謝謝，但我的意思是稍微複雜一點 - 我在帖子中添加了更多信息。它有3000條記錄，每條記錄從「＆」或「A/O」或「A/O/O」開始。但它是更加無關的信息之後 - 類似於： –

A/O/Ojkjkjkjkyyy156第3街A/Otytytyty2nd街和它的3000個不同的記錄 –

@ heli_77 - 這不是一個真正的R問題，但更多的正則表達式問題。上面的鏈接是對正則表達式的一個很好的介紹，所以你只需要坐下來思考一些足夠聰明的東西來刪除違規字符集。或者分幾步完成。 – Chase

從字段中刪除相似字符

回答

相關問題