2011-11-03 27 views
2

我想通過twitteR包解析西里爾語tweets。編碼問題使用twitteR R包西里爾語tweet

我運行這個簡單的代碼來獲得最後的5個鳴叫:

> library("twitteR") 
> tweets=userTimeline(user="ru_mts",n=100) 
> tweets[1:5] 

的輸出如下。我該怎麼做才能使它可用?肯定有一些編碼。謝謝。

[[1]] 
[1] "ru_mts: @potemkink \[email protected] [email protected]=88 ;8<8B>2 [email protected]:0 459AB2CNB >[email protected]=8G5=8O A:>@>AB8. \025ABL CA;C38, =0 :>B>@KE ;8<8B 1>;LH5: http://t.co/EgbYhwfx. #\034\"!" 

[[2]] 
[1] "ru_mts: @step_42, C40;5=85 8=D-O > [email protected]=88 ;8<8B0 \021\030\" [email protected]>872>48BAO [email protected] *111*219# 2K7>2, 8;8 A<A A B5:AB>< stop =0 5340. \0215A?;0B=>. ^\030\020 #\034\"!" 

[[3]] 
[1] "ru_mts: @d_kosmos, 2 A;CG05 5A;8 C \0220A =5 ?>;CG05BAO 2>A?>;L7>20BLAO CA;C3>9 \03353:89 ?;0B56, @5:><5=4C5< 2>A?>;L7>20BLAO ?>765. ^\030\020 #\034\"!" 

[[4]] 
[1] "ru_mts: @d_kosmos, [email protected]>AB02LB5 ?>60;C9AB0 \0220H \026B5; \034\"!, =8: 2 B28, =0 [email protected] \[email protected]>[email protected]< 8=D>@<0F8N ?> [email protected], CA;C30< 8 1>=CA0<. ^\030\020 #\034\"!" 

[[5]] 
[1] "ru_mts: @katmirabo \034>6=> CB>G=8BL [email protected]=C A?8A0=89 87 45B0;870F88 2 \[email protected]=5B-\037><>I=8:5: http://t.co/3ydhKfPL 8;8 ?>72>=82 ?> \0260890. ^\030\020 #\034\"!" 

這裏是sessionInfo()

R version 2.14.0 (2011-10-31) 

Platform: i386-pc-mingw32/i386 (32-bit) 


locale: 

[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252  
LC_MONETARY=English_United States.1252 
[4] LC_NUMERIC=C       LC_TIME=English_United States.1252  
attached base packages: 
[1] stats  graphics grDevices utils  datasets methods base  
other attached packages: 
[1] Unicode_0.1-3 twitteR_0.99.9 RJSONIO_0.95-0 RCurl_1.6-10.1 bitops_1.0-4.1 
loaded via a namespace (and not attached): 
[1] tools_2.14.0 
+0

它適合我。心智報告sessioInfo(),所以我們有更多的信息可以處理? –

+0

謝謝。我已經添加了我的會話信息 – dmitryungurean

+0

我的twitteR版本已舊,我嘗試更新,但是這個軟件包不是buildig ... –

回答

1

問題實際上駐留與RJSONIO :: fromJSON和RCurl ::使用getURL其/被條帶化了 'UTF-8' 編碼。

RJSONIO :: fromJSON()沒有用來保存編碼,但是如果你更新到RJSONIO 0.96-0,

Duncan目前正在研究RCurl :: getURL的編碼問題(它使用正確的編碼來創建字符向量元素,但之後發生了一些奇怪的事情)。

簡短答案是將RJSONIO更新爲0.96-0,然後在下一個版本發佈時使用修補程序更新RCurl。

+0

gosh RCurl相對最近出版,在2011年11月2日。想知道什麼時候可能會更新?無論如何感謝您指出問題出在哪裏。 – dmitryungurean

+0

@dmitryungurean我在10月24日報道了這個問題。鄧肯善意地回答說這是在他的待辦事項清單上,但考慮到他所維護的軟件包數量以及他的專業工作,我認爲可以公平地說他是一個非常忙碌的人,所以不知道他何時有時間來解決它。 –

+0

RCurl已經更新到1.8-0,沒有窗口二進制文件:( – dmitryungurean