我正在從事一個通過「RedditExtractoR」R軟件包從Reddit收集數據的網絡抓取工具項目。 該軟件包允許通過搜索查詢獲取帖子的網址。然後我從每個網址的帖子中獲取內容。處理包含另一種語言符號的URL
問題是某些URL包含來自其他語言的符號,而R無法正確處理。
例如波紋管URL返回錯誤: 「http://www.reddit.com/r/Barca/comments/4g4fmp/match_thread_fc_barcelona_vs_sporting_de_gij \ 363n /」
In file(con, "r") : cannot open URL 'https://www.reddit.com/r/Barca/comments/4g4fmp/match_thread_fc_barcelona_vs_sporting_de_gij������n/.json?limit=500': HTTP status was '503 Service Unavailable'
原始URL是:https://www.reddit.com/r/Barca/comments/4g4fmp/match_thread_fc_barcelona_vs_sporting_de_gijón/
正如我理解有一些編碼的問題。 R不能處理這個URL的字符串,因爲裏面有包含「?」的符號,用R來重新編碼爲「\ 363n」。
那麼,如何改變編碼在R中正確處理這種URL呢?
你嘗試使用函數URLencode()嗎? – AaronP
有趣! 這裏的結果這是我從urlencode()來獲得: http://www.reddit.com/r/Barca/comments/4g4fmp/match_thread_fc_barcelona_vs_sporting_de_gij%F3n/ 不幸的是,URL doen't工作。也許你可以爲我的情況建議一些特定的參數? – Michael