我已經閱讀了大量的教程來幫助和Hpricot下,我發現它不是所有的Html可以說話的問題。我會詳細說明:Hpricot HTML刮(使用Ruby on Rails)
我試圖刮掉html的網站是http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx
。
我需要獲取作爲結果列出的鏈接(我需要這樣做可能在上述網站上的任何網址,因此RSS或這樣做是不利的,因爲我需要該程序來讀取它們在現場,飛給出的任何URL我喂。)
我想盡一切辦法拉斷的特定ID我需要(在直接XPATH給予等等的等等),但我意識到,當我這樣做
doc = Hpricot(open("http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx", 'User-Agent'=>'ruby')) str = doc puts str
所提供的結果排除了所有與我需要的鏈接相關的html!所以哪一種方法我用來刮,它沒有找到所需的元素,因爲他們不在那裏根據hpricot。
當我在Firefox中查看源代碼時,我確實看到它們,所以我很困惑。有沒有人知道如何解決這個問題?我一直在努力尋找自己的方式,我無法找到解決方案! 任何幫助將不勝感激
我想要的元素存在於: html/body/form/table // tr/td/div/table [2] // tr [2]/td [2]/div/table/table // tr/td/div/div/table/tbody/tr/td/h6 (其中//表示tbody) 但Hpricot不會讀取過去 html/body/form/table // tr/td/div/table [2] // tr [2]/td [2]/div 有什麼想法? – Erika