2014-07-14 98 views
-4

對不起,如果它太基本。我想刮一個網站,其中涉及點擊頁面上的鏈接,並獲得最終的HTML。我讀了關於名爲JSDOM的nodejs模塊,我認爲它是爲此目的而構建的。Jsdom webscrapping

任何人都可以請指導我在正確的方向(博客或一些文件),因爲我找不到任何有價值的東西。

編輯1:
我一直在使用cheerio,但它不執行該功能。我發現這三個環節http://okfnlabs.org/blog/2013/01/15/web-scraping-with-node-css-selectors.html
http://liamkaufman.com/blog/2012/03/08/scraping-web-pages-with-jquery-nodejs-and-jsdom/
http://reustle.io/blog/simple-site-scraping-with-nodejs-and-jsdom
沒有這些鏈接顯示如何實際使用頁面上JS操縱JSDOM只與DOM操作交易。

+2

這個問題不是太基本,但它會被低估,因爲你沒有顯示研究工作,而且它太寬泛。 –

回答

0

一個快速的谷歌搜索會給你你需要的,但這是一個關於網絡抓取的好鏈接。你並不需要使用JSDOM,你可以只使用Cheerio(類似jQuery的語法)來選擇HREF CSS元素。

http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs#commentform

乾杯。

+1

這對於Ajax調用後沒有顯示數據的站點是有效的,我已經報廢了7個這樣的站點,我被困在幾個站點上,您必須在其中點擊幾個按鈕才能獲取所需的數據。因此,JSDOM和點擊事件觸發他們的網頁上的Ajax方法... – Babar

0

如果您正在與DOM進行大量的交互(通過Javascript或其他方式),您可能會遇到JSDOM的行爲不夠像瀏覽器的問題。

對於PhantomJS(其中的節點模塊爲exist),您可能會有更好的運氣,這將提供一個真正的無頭瀏覽器環境。