2014-06-18 30 views
0

我有一個數據文件,有一些法語,日語裏面,數據文件看起來如下:擺脫所有非英文字符中的R

我們有兩列:

  • Col1中包含一個句子,其中大部分是英語的,其中一些是外語。
  • Col2全是英文。

Col1中是慈祥的樣子:

| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants 

我做的是隻保留英語。如果我們在一行中找到一個外語詞彙。我需要刪除整行。

有人知道如何在R?

+1

請提供一個例子,一些代碼,你試過。 –

+0

努力並嘗試[讓你的問題可重現](http://stackoverflow.com/q/5963269/1315767) –

+0

非英語你的意思是非ascii? – asb

回答

1

也許你可以使用textcat包,聲稱它可以檢測到超過74種語言。(它不與阿拉伯工作:()

library("textcat") 
dat <- read.table(text=' 
| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants' ,sep='|') 

dat[textcat(dat$V3) =="english",] 

V1  V2              V3 
1 NA _ - 5     PR - The number of qualified candidates 
3 NA _ - 8 PR - Quick, easy, inexpensive and plenty of applicants