2010-06-14 42 views
5

我正在爲Firefox瀏覽器插件工作,我希望能夠進行一些自動測試以確保它能正確處理各種不同的HTML/JavaScript功能。有誰知道可用於此類測試的可下載的HTML和/或JavaScript頁面語料庫嗎?可下載的HTML測試語料庫

+0

plase指定其他要求:html頁面應包含哪些內容?什麼是不允許包含的?這種頁面的首選行爲是什麼? 根據您對這些問題的回答,可能會自動生成語料庫。 – artistoex 2010-06-21 10:28:19

回答

2

Dotbot發佈與HTML的14GB torrent文件在2009年

+0

這非常接近我的想法。謝謝! – 2010-06-28 11:13:59

+0

似乎並不存在於2014. – bain 2014-12-06 13:11:23

0

您是否贊同此頁面:http://acid3.acidtests.org/

+0

我不這麼認爲 - 據我所知,酸測試側重於標準合規性,特別是w.r.t. DOM和JavaScript。我想要更加逼真的頁面,這些頁面不完全兼容,還有一些其他類型的JavaScript功能等。 – 2010-06-14 15:41:00

0

WebKit項目使用SunSpider,它具有基於「真實世界」設計模式的測試。

伊恩希克森的HTML測試套件也可能有你想要的東西。

0

ECMAScript 5 test suite測試(幾乎?)當前標準的所有JavaScript功能。只有瀏覽器特定的功能未經過測試。

2

我不知道HTML/JavaScript的文檔的打包,準備去語料庫(雖然它看起來像其他一些這樣的人做爬行。 )如果我處於你的情況,我會建立自己的語料庫(你會知道它是最新的,你會知道你正在處理的是什麼)。

要建立你自己的,你可以嵌入的the open source crawlers一個,或簡單地使用遞歸wget

wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log 

要擴展上面?編寫一些從Google獲得的排名前n的網站列表,並將這些網址注入上面的wget命令。

+0

你知道如何停止'wget'下載大文件嗎? (ZIP,ISO等在頁面上鍊接?)我試過'wget'一次,但最終吮吸了很多非HTML垃圾。 另外,您不應該爲一般抓取建議'robots = off'。這不是一個好的網民。 – Kornel 2010-06-25 20:03:13

+0

@pornel - 答:我同意,robots = off對於一般的抓取來說不是個好主意,但是在像上面這樣的單個實例中,我沒有看到問題。 B:你似乎可以添加一個選項到wget來查看標題中的內容長度(如果服務器在響應中包含它)。我不認爲wget目前已經實現了這個功能,但我不知道wget的全部內容。任何人有關於此的任何細節? – labratmatt 2010-06-26 00:17:30

+0

這對於stackoverflow.com非常有用。任何想法爲什麼它只爲像yelp.com這樣的東西拉幾頁? – 2015-03-01 15:31:46