我有這個查詢提取已被「喜歡」超過5次的帖子。通過XPath提取HTML字段
//div[@class="pin"]
[.//span[@class = "LikesCount"]
[substring-before(normalize-space(text())," ") > 5]
我想提取和保存如標題,圖像網址,像數,列賓號,附加的信息...
如何提取它們呢?
- 多個XPath查詢?
- 在使用php和php函數進行迭代時,挖掘結果帖子的節點?
- ...
遵循標記示例:
<div class="pin">
<p class="description">gorgeous couch <a href="#">#modern</a></p>
[...]
<div class="PinHolder">
<a href="/pin/56787645270909880/" class="PinImage ImgLink">
<img src="http://media-cache-ec3.pinterest.com/upload/56787645270909880_d7AaHYHA_b.jpg"
alt="Krizia"
data-componenttype="MODAL_PIN"
class="PinImageImg"
style="height: 288px;">
</a>
</div>
<p class="stats colorless">
<span class="LikesCount">
22 likes
</span>
<span class="RepinsCount">
6 repins
</span>
</p>
[...]
</div>
'最好'的方式對你來說意味着什麼? – hek2mgl
一旦我找到合適的帖子,我不知道哪個是最好的方法來提取商店,並組織所有這些信息 –