0
這是我的第一篇文章,所以如果我的問題太模糊或不清楚,請告訴我。 我試圖爲一個研究項目的新聞文章刮網站。但是該網頁上修改過的搜索的鏈接將不起作用,因爲Intranet身份驗證會吐出一個錯誤。 所以我的想法是,我填寫搜索表單並使用生成的鏈接來刮取網站。 既然我的老闆喜歡和R一起工作,他會希望我寫一個R-skript來這樣做,但我不知道如何和沒有找到任何工作。填寫在網站上搜索和屏幕刮r結果
這是我的第一篇文章,所以如果我的問題太模糊或不清楚,請告訴我。 我試圖爲一個研究項目的新聞文章刮網站。但是該網頁上修改過的搜索的鏈接將不起作用,因爲Intranet身份驗證會吐出一個錯誤。 所以我的想法是,我填寫搜索表單並使用生成的鏈接來刮取網站。 既然我的老闆喜歡和R一起工作,他會希望我寫一個R-skript來這樣做,但我不知道如何和沒有找到任何工作。填寫在網站上搜索和屏幕刮r結果
您需要兩個包:RCurl
和XML
。 RCurl
包用於瀏覽互聯網。它可以使用_GET或_PUT參數訪問HTML表單。因此,您可以登錄或填寫任何表格。
服務器的輸出將使用HTML。如果你想grep的鏈接,你可以使用XLM
包。我幫助獲取任何數據格式的XML格式。
但是在開始之前,您必須找出那是網頁中的搜索表單(並且應該使用參數)。 Firefox瀏覽器可能很有用。您需要兩個加載項:Live HTTP標頭和Firebug。使用這些加載項,您可以更輕鬆地檢查網頁。
我知道它沒有解決你的問題,但我不能再說了,因爲它加深了特定的情況和網頁結構。我相信我提到的工具足夠實現你想要的。
打賭問候。