HTML表格主體比表格標題中定義的多1列。這導致跳過最後一列,當然還有列不匹配。如何在R表中使用package("htmltab")
讀取R中的附加列到結果data.frame/table中顯然,後處理無助於此。如何讀取不匹配列和標題的HTML表格?
代碼
install.packages("htmltab")
library(htmltab)
bu<- 0
bu <- data.table("Pl.", "Mannschaft", "Kurzname" , "Spiele", "G.", "U.", "V.", "Tore", "Diff.", "Pkt.")
#https://www.bundesliga-prognose.de/1/2009/1/
url <- "https://www.bundesliga-prognose.de/1/2009/1/"
bu <- htmltab(doc = url, column=10,columnnames=c ("Pl." , "Mannschaft", "Kurzname" , "Spiele", "G.", "U.", "V.", "Tore", "Diff.", "Pkt."), which = "//th[text() = 'Pl.']/ancestor::table")
bu <- data.table(bu)
head(bu)
這導致
Pl. Mannschaft Spiele G. U. V. Tore Diff. Pkt.
1: 1. VfL Wolfsburg Wolfsburg 1 1 0 0 2:0 2
2: 2. Eintracht Frankfurt E. Frankfurt 1 1 0 0 3:2 1
3: 3. FC Schalke 04 FC Schalke 04 1 1 0 0 2:1 1
4: 4. Borussia Dortmund B. Dortmund 1 1 0 0 1:0 1
5: NA Hertha BSC Berlin H. BSC Berlin 1 1 0 0 1:0 1
6: 6. Bor. Mönchengladbach M´gladbach 1 0 1 0 3:3 0
作爲短名稱( 「Kurzname」)沒有在頭中指定的簡稱(「Kurzname「)與遊戲(Spiele
)欄等顯示。所以最後一列被跳過。如何在使用htmltab
包讀取標題時添加附加列短名稱(「Kurzname」)? 此外,我想使用htmltab
軟件包將行5中的NA
替換爲行ID /數字?
感謝!很有幫助。這似乎證實了我的擔憂 – schelm56