Jsdom webscrapping

2014-07-14 98 views -4 likes

-4

對不起，如果它太基本。我想刮一個網站，其中涉及點擊頁面上的鏈接，並獲得最終的HTML。我讀了關於名爲JSDOM的nodejs模塊，我認爲它是爲此目的而構建的。Jsdom webscrapping

任何人都可以請指導我在正確的方向（博客或一些文件），因爲我找不到任何有價值的東西。

編輯1：
我一直在使用cheerio，但它不執行該功能。我發現這三個環節http://okfnlabs.org/blog/2013/01/15/web-scraping-with-node-css-selectors.html
http://liamkaufman.com/blog/2012/03/08/scraping-web-pages-with-jquery-nodejs-and-jsdom/
http://reustle.io/blog/simple-site-scraping-with-nodejs-and-jsdom
沒有這些鏈接顯示如何實際使用頁面上JS操縱JSDOM只與DOM操作交易。

2014-07-14 Babar

這個問題不是太基本，但它會被低估，因爲你沒有顯示研究工作，而且它太寬泛。 –

回答

一個快速的谷歌搜索會給你你需要的，但這是一個關於網絡抓取的好鏈接。你並不需要使用JSDOM，你可以只使用Cheerio（類似jQuery的語法）來選擇HREF CSS元素。

乾杯。

2014-07-14 07:36:00 michaelc

這對於Ajax調用後沒有顯示數據的站點是有效的，我已經報廢了7個這樣的站點，我被困在幾個站點上，您必須在其中點擊幾個按鈕才能獲取所需的數據。因此，JSDOM和點擊事件觸發他們的網頁上的Ajax方法... – Babar

如果您正在與DOM進行大量的交互（通過Javascript或其他方式），您可能會遇到JSDOM的行爲不夠像瀏覽器的問題。

對於PhantomJS（其中的節點模塊爲exist），您可能會有更好的運氣，這將提供一個真正的無頭瀏覽器環境。

2014-08-02 02:13:47

相關問題