2011-06-28 34 views
0

我正在嘗試使用YQL來抓取一些網站。當我在YQL控制檯中測試各種查詢時,我得到一個結果節點。因此,例如,當我運行:使用YQL進行HTML抓取

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body' 

我得到一個空<results />節點(permalink)。 在此先感謝!

回答

1

http://www.reverbnation.com可能會阻止來自Yahoo!的請求。基於某些標準,如標題。我看了一下reverbnation的robots.txt,並沒有阻止Yahoo!基於「Yahoo Pipes 2.0」用戶代理,所以它一定是別的東西。

要重新創建問題,請針對您自己的站點進行YQL查詢,然後查看完整的訪問日誌以查看完整的請求和來自Yahoo!的所有標題。然後使用類似cURL的工具提出類似請求。

您也可以嘗試在端口上運行netcat並使用http://yoursite.com:PORT查詢以查看完整請求。

相關問題discussed here

+0

不知道如何從http://www.amazon.in/Xiaomi-Redmi-4A-Grey-16GB/dp/B01FM7K078?_encoding=UTF8&psc=1&refRID=87MVWA5E1E8PEBZE8XZN&ref_=nav_custrec_signin&ref_=pd_rhf_gw_p_img_1刮圖像和meta描述? – 2017-06-29 12:03:24