url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392"
hh = read_html(GET(url),encoding = "EUC-KR")
#guess_encoding(hh)
html_text(html_node(hh, 'div.par'))
#html_text(html_nodes(hh ,xpath='//*[@id="news_body_id"]/div[2]/div[3]'))
我試圖抓取新聞數據(只是爲了練習)在河中的R - 與rvest爬行 - 用失敗HTML_TEXT使用rvest功能
當我試圖讓在HTML標籤的文本它在上面的主頁上,我沒有從網頁上獲取文本。 (Xpath也不工作)
我不認爲我沒有找到包含我想要在頁面上獲得的文本的鏈接。但是,當我嘗試使用html_text函數從該鏈接中提取文本時,它將被提取爲「」或空格。
我找不到原因..我沒有任何HTML和爬行經驗。
我猜的是包含新聞正文上下文的HTML標籤,有「class」和「data-dzo」(我不知道它是什麼)。
因此,如果有人告訴我如何解決它或讓我知道我可以在谷歌上找到的搜索關鍵字來解決這個問題。
感謝您對您的技術幫助和謹慎的建議。兩者都非常有幫助。我會特別注意你的預防措施。再次感謝你。 –