我一直在嘗試閱讀&解析一些HTML以獲取動物收容所的動物條件列表。我相信我對HTML解析的經驗不足沒有幫助,但我似乎沒有得到快速的地方。R閱讀並解析HTML到列表
這裏是HTML的一個片段:
<select multiple="true" name="asilomarCondition" id="asilomarCondition">
<option value="101">
Behavior- Aggression, Confrontational-Toward People (mild)
-
TM</option>
....
</select>
這裏只有一個標籤與<select...>
,其餘都是<option value=x>
。
我一直在使用XML庫。我可以刪除換行符和標籤,但沒有成功移除標籤:
conditions.html <- paste(readLines("Data/evalconditions.txt"), collapse="\n")
conditions.text <- gsub('[\t\n]',"",conditions.html)
作爲最後的結果,我想所有的條件清單,我可以進一步處理以供日後使用作爲因子名稱:
Behavior- Aggression, Confrontational-Toward People (mild)-TM
Behavior- Aggression, Confrontational-Toward People (moderate/severe)-UU
...
我不知道我是否需要使用XML庫(或另一個庫),或者如果gsub
模式就足夠了(無論哪種方式,我需要找出如何使用它) 。
你可以指向帶有該選擇框的完整URL或擴展該片段嗎? – hrbrmstr
我發現rvest軟件包更易於使用。如果你可以提供一個鏈接到網站,有人可以編寫你的解決方案。 – Dave2e
它是HTML。這是一個表單中的選擇列表@alistaire – hrbrmstr