2013-09-28 161 views
1

我試圖抓取這些列表,併爲屬於我的客戶的網站上的這些工作列表提供更多曝光。問題是,我需要能夠鏈接到具體的工作列表,以便求職者申請。 This is the page我在嘗試保存來自的商家信息鏈接。刮似乎沒有網址的網頁

這將是理想的,如果我可以保存求職者點擊查看原始列表然後申請的地址。

  1. 這是什麼網站做不設有網址爲這些頁面
  2. 是否有可能提供一個列出具體地址
  3. 如果可能的話,我怎麼能生成地址?

如果我不能得到一個特定的地址,我認爲,這樣用戶點擊觸發我的客戶的網站內部腳本這需要上市ID並搜索我發現,上市的網站的鏈接,我能得到它開啓,然後將用戶重定向到該特定列表。

這樣做的缺點是用戶將不得不等待一段時間,具體取決於列表在目錄上的位置。我可以通過一個愉快的「搜索您的列表!感謝您的耐心」信息來放置某種進度條。

如果我可以避免必須這樣做,但是,那太棒了!

我正在使用Nokogiri和機械化。

+0

是機械化允許表單提交。謝謝! –

+0

如果你可以寫出你在這裏作爲答案,我會給你信貸。 –

回答

0

您引用的頁面似乎是由Oracle產品生成的,所以人們會認爲他們願意正確構建Web表單(並參考可訪問性問題)。他們沒有,所以我覺得他們的工程師們每天都很糟糕,或者他們故意讓它稍微難以刮擦。

當您將鼠標懸停在這些鏈接上時,瀏覽器不顯示的原因是href沒有。頁面的功能是使用JavaScript捕獲點擊事件,使用一些隱藏值填充POST表單,然後以編程方式調用submit方法。這可能會導致屏幕閱讀器和其他輔助功能設備出現問題,並導致後退按鈕重新提交頁面的方式出現問題。

好消息是,這種類型的構造通常可以通過自己創建表單來實現,可以使用第三方頁面上的真實表單或通過爬蟲庫。如果您將正確的值發佈到目標URI,通過檢查頁面腳本進行逆向工程,則生成的文檔應該是您期望的「鏈接」頁面。

+1

非常感謝! –