試圖從http://www.112.ru/services/wanted/people/index.shtml?roztype=1獲取所有標題 使用Yahoo管道Xfetch
模塊。XPath查詢返回Yahoo管道中的任何結果
我的查詢//span[@class='uchbold']
選擇Firepath成功。但在雅虎管道和Hpple沒有結果。
試圖從http://www.112.ru/services/wanted/people/index.shtml?roztype=1獲取所有標題 使用Yahoo管道Xfetch
模塊。XPath查詢返回Yahoo管道中的任何結果
我的查詢//span[@class='uchbold']
選擇Firepath成功。但在雅虎管道和Hpple沒有結果。
這些類屬性是通過未使用Yahoo Pipes和Hpple執行的JavaScript插入的。
此外,內容由ajax加載,您將不得不跟蹤ajax調用並針對此接口進行開發。
用Firebug我可以跟蹤它加載
http://www.112.ru/publish/00/01/0508.01/2012/08//contents.xml
和大量的哪些返回404錯誤等 「contents.xml」 文件。它包含內容的形式,如
<view file="0901156380089d71_0508.01_00_01.full.shtml" format="full" indexed="true"/>
這似乎再次鏈接到一些包含實際數據的HTML片段。
你可以請推薦任何教程/文件進一步閱讀? – Shmidt
您將不得不閱讀並分析加載文件的JavaScript,以便了解他們如何加載數據以及如何在沒有JavaScript的情況下執行此操作。一旦您知道如何確定要加載的URL,您需要將它們全部提取併合並。對不起,我無法進一步幫助你,因爲我不詳細地瞭解雅虎管道。或者使用Node.JS或其他工具構建某種代理,然後在使用Yahoo Pipes解析之前使用它來評估JavaScript,但我認爲這更加困難(並且需要服務器)。 –
可能有人準備點擊www.112.ru中的鏈接。其他人(包括我)不太信任,因此不會回答你的問題。將足夠的XML摘錄複製到問題中好得多。 –
@MichaelKay Jens發現它是一個問題,因爲數據的異步加載部分。如果我只在這裏提供html源代碼,就不可能回答這個問題。 – Shmidt