2012-11-01 79 views
0

我有File1.csv包含3000條記錄,從中我需要刪除與地址無關的字符。從字段中刪除相似字符

每條記錄​​從「&」或「A/O」開始。 我需要清理我的「Address1」字段,如果該字段中沒有與地址相關的信息,我需要有空記錄 。

實施例:

File1.csv: 

Address1 
&&2340 Clemb Street 
&&564 7th Street 
&&&10th Street 
A/O11th Street 
A/ONorth Street 
A/O/OSouth Street 
A/Ocareof 
A/Otttt 
A/Oyuyuyu 
A/Ouiuiuiuiui 
A/O/yuyyuyuyuyugggh 4510th Street 
&uhhhhhello 56 11th Street 

我期待結果File1中-without A/O,A/O/O,A/Ouiuiuiui等:

File1.csv:

Address1 
2340 Clemb Street 
564 7th Street 
10th Street 
11th Street 
North Street 
South Street 
<blank record> 
<blank record> 
<blank record> 
<blank record> 
4510th Street 
56 11th Street 

Thanx尋求幫助!

+0

我很好奇,爲什麼你的數據看起來像這樣呢? – flodel

+0

請從CSV導入數據集並使用像'dput(head(my.dataset))'這樣的smth,以便我們可以使用它。 – aL3xa

回答

1

幾乎肯定可以使用票友匹配模式,但gsub()及以下似乎得到與此數據集所做的工作:

x <- c('&&2340 Clemb Street', 
     '&&564 7th Street', 
     '&&&10th Street', 
     'A/O11th Street', 
     'A/ONorth Street', 
     'A/O/OSouth Street') 

gsub("&|A/O|/O", "", x) 
#----- 
[1] "2340 Clemb Street" "564 7th Street" "10th Street"  "11th Street"  
[5] "North Street"  "South Street" 

簡介正則表達式可以發現here

+0

追逐:謝謝,但我的意思是稍微複雜一點 - 我在帖子中添加了更多信息。它有3000條記錄,每條記錄從「&」或「A/O」或「A/O/O」開始。但它是更加無關的信息之後 - 類似於: –

+0

A/O/Ojkjkjkjkyyy156第3街A/Otytytyty2nd街和它的3000個不同的記錄 –

+0

@ heli_77 - 這不是一個真正的R問題,但更多的正則表達式問題。上面的鏈接是對正則表達式的一個很好的介紹,所以你只需要坐下來思考一些足夠聰明的東西來刪除違規字符集。或者分幾步完成。 – Chase