從該網站上,http://www.lewisthomason.com/locations/這個HTML代碼的部分有我想提取,即如何在公司的辦公室位於四個會市(諾克斯維爾,孟菲斯,納什維爾和塞維爾)的XPath 1.0表達式返回NULL
<div id="the_content">
<div class="one_fourth">
<h3>
<cufon class="cufon cufon-canvas" alt="KNOXVILLE" style="width: 87px; height: 26px;">
<canvas width="104" height="25" style="width: 104px; height: 25px; top: -1px; left: 0px;"></canvas>
<cufontext>KNOXVILLE</cufontext>
</cufon>
</h3>
<p>
<h6>
</div>
<div class="one_fourth">
<div class="one_fourth">
<div class="one_fourth last">
<div class="clearboth"></div>
<p></p>
</div>
</div>
<div id="secondary"> </div>
<div class="clearboth"></div>
</div>
我嘗試了這些XPath搜索
require(XML)
require(httr)
doc <- content(GET('http://www.lewisthomason.com/locations/'))
xpathSApply(doc, "//div[@id = 'the_content']/div//p", xmlValue, trim = TRUE)
xpathSApply(doc, "//div[@class = 'one_fourth']//p", xmlValue, trim = TRUE)
我得到的都是空的幾個變化。什麼樣的表達會帶回城市名稱或整個地址?我知道第四個城市,所以我會修改最後的表達。
感謝您的任何指導。
的包裝紙來包裝的包裝;) – jdharrison 2014-09-22 14:22:22
的確:-)雖然這應該使它更容易爲人們獲取數據,尤其與'SelectorGadget'書籤包括哈德利在小插曲。它非常適合整個新的「管道」時尚。 – hrbrmstr 2014-09-22 14:25:02
順便提一下,從magrittr進口%>%,所以你不需要dplyr – hadley 2014-09-23 17:32:59