有沒有JavaScript的網頁爬蟲框架?有沒有任何Java腳本的網頁爬蟲框架
回答
嘗試PhantomJS。不完全是一個爬蟲,但可以很容易地用於此目的。它具有內置的全功能WebKit引擎,並具有保存截圖等功能。可用作簡單的命令行JS解釋器。
服務器端?
我不會認爲這是一個爬蟲,因爲它不編譯後續的uri爬行。它基本上會下載給定URL的來源並在完成時觸發回調。消費者需要定義用於抓取該頁面中提供的鏈接的邏輯,這不是非常簡單的事情。 – 2012-06-19 18:56:11
有一個新的框架,只是釋放了Node.js的叫spider。它使用jQuery來抓取/索引網站的HTML頁面。 API和配置非常好,特別是如果你已經知道jQuery。
從測試套件,這裏的爬行紐約時報網站的例子:
var spider = require('../main');
spider()
.route('www.nytimes.com', '/pages/dining/index.html', function (window, $) {
$('a').spider();
})
.route('travel.nytimes.com', '*', function (window, $) {
$('a').spider();
if (this.fromCache) return;
var article = { title: $('nyt_headline').text(), articleBody: '', photos: [] }
article.body = ''
$('div.articleBody').each(function() {
article.body += this.outerHTML;
})
$('div#abColumn img').each(function() {
var p = $(this).attr('src');
if (p.indexOf('ADS') === -1) {
article.photos.push(p);
}
})
console.log(article);
})
.route('dinersjournal.blogs.nytimes.com', '*', function (window, $) {
var article = {title: $('h1.entry-title').text()}
console.log($('div.entry-content').html())
})
.get('http://www.nytimes.com/pages/dining/index.html')
.log('info')
;
花上一個上午讓蜘蛛工作,它不能在最新的0.6.6 node.js中運行。 – Kuroro 2012-01-01 04:43:11
這是一個好的開始,但它似乎不處理元重定向或文檔庫覆蓋,因此無法抓取許多網站。但這是我見過的節點的最佳實現。並且支持cookie,它比其他開源爬蟲更好。 – 2012-06-19 19:13:59
- 1. 有沒有Objective-C的網頁爬蟲框架?
- 2. java網絡爬蟲
- 3. Web爬蟲的Rx框架
- 4. Python網絡爬蟲沒有輸出
- 5. 網絡爬蟲腳本不工作的
- 6. 單頁網頁爬蟲PHP
- 7. 網絡爬蟲的Java
- 8. 有沒有免費的PHP爬蟲?
- 9. Url沒有在網頁中返回正確的html(對於我的Java爬蟲)
- 10. 以下鏈接,Scrapy網頁爬蟲框架
- 11. 如何使網絡爬蟲更有效?
- 12. 沒有任何框架的java p2p
- 13. 有沒有像一個備份爬蟲?
- 14. 網絡爬蟲文本雲
- 15. 網絡爬蟲
- 16. 有沒有一個網絡爬蟲支持javascript執行
- 17. 從頭開始沒有任何框架的Ruby網頁
- 18. 是否有任何理由爲C語言編寫框架時編寫Objective-C的Web爬蟲框架?
- 19. nginx - 爬蟲/機器人沒有ssl
- 20. Instagram爬蟲沒有使用Instagram API?
- 21. 在Java中的網絡爬蟲。下載網頁問題
- 22. 用飛鏢寫的網頁爬蟲
- 23. 使用Ajax/JavaScript的網頁爬蟲
- 24. 具有廣度優先探索功能的網頁爬蟲
- 25. C++網絡爬蟲
- 26. PHP網絡爬蟲
- 27. Python網絡爬蟲
- 28. 網絡爬蟲類
- 29. 抓取單個域及其所有子網站的Java爬蟲
- 30. Python的網絡爬蟲(NameError:名字「蜘蛛」沒有定義)
你能更具體?你在尋找一個在JavaScript中實現的網絡爬蟲嗎?服務器端(Node.js)還是客戶端(在瀏覽器中)? – 2011-04-05 17:31:29
是否有客戶端的webcrawler框架?這將如何工作? – Shakakai 2011-04-05 17:36:32
我使用服務器端JavaScript編寫了三個API。您可以像使用'python'那樣從命令行運行'nodejs'。這是一個完全有效的問題。 – slezica 2013-03-13 00:06:50