擺脫所有非英文字符中的R

我有一個數據文件，有一些法語，日語裏面，數據文件看起來如下：擺脫所有非英文字符中的R

我們有兩列：

Col1中包含一個句子，其中大部分是英語的，其中一些是外語。
Col2全是英文。

Col1中是慈祥的樣子：

| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants

我做的是隻保留英語。如果我們在一行中找到一個外語詞彙。我需要刪除整行。

有人知道如何在R？

來源

2014-06-18 user3754216

請提供一個例子，一些代碼，你試過。 –

努力並嘗試[讓你的問題可重現]（http://stackoverflow.com/q/5963269/1315767） –

非英語你的意思是非ascii？ – asb

也許你可以使用textcat包，聲稱它可以檢測到超過74種語言。（它不與阿拉伯工作:(）

library("textcat") 
dat <- read.table(text=' 
| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants' ,sep='|') 

dat[textcat(dat$V3) =="english",] 

V1  V2              V3 
1 NA _ - 5     PR - The number of qualified candidates 
3 NA _ - 8 PR - Quick, easy, inexpensive and plenty of applicants

來源

2014-06-18 21:30:01 agstudy

擺脫所有非英文字符中的R

回答

相關問題