可下載的HTML測試語料庫

我正在爲Firefox瀏覽器插件工作，我希望能夠進行一些自動測試以確保它能正確處理各種不同的HTML/JavaScript功能。有誰知道可用於此類測試的可下載的HTML和/或JavaScript頁面語料庫嗎？可下載的HTML測試語料庫

來源

2010-06-14 Alex Jordan

plase指定其他要求：html頁面應包含哪些內容？什麼是不允許包含的？這種頁面的首選行爲是什麼？根據您對這些問題的回答，可能會自動生成語料庫。 – artistoex 2010-06-21 10:28:19

Dotbot發佈與HTML的14GB torrent文件在2009年

來源

2010-06-25 17:00:42 Kornel

這非常接近我的想法。謝謝！ – 2010-06-28 11:13:59

似乎並不存在於2014. – bain 2014-12-06 13:11:23

您是否贊同此頁面：http://acid3.acidtests.org/ ？

來源

2010-06-14 14:32:14

我不這麼認爲 - 據我所知，酸測試側重於標準合規性，特別是w.r.t. DOM和JavaScript。我想要更加逼真的頁面，這些頁面不完全兼容，還有一些其他類型的JavaScript功能等。 – 2010-06-14 15:41:00

WebKit項目使用SunSpider，它具有基於「真實世界」設計模式的測試。

伊恩希克森的HTML測試套件也可能有你想要的東西。

來源

2010-06-19 20:06:49 Mike

這ECMAScript 5 test suite測試（幾乎？）當前標準的所有JavaScript功能。只有瀏覽器特定的功能未經過測試。

來源

2010-06-20 01:55:59

我不知道HTML/JavaScript的文檔的打包，準備去語料庫（雖然它看起來像其他一些這樣的人做爬行。）如果我處於你的情況，我會建立自己的語料庫（你會知道它是最新的，你會知道你正在處理的是什麼）。

要建立你自己的，你可以嵌入的the open source crawlers一個，或簡單地使用遞歸wget：

wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log

要擴展上面？編寫一些從Google獲得的排名前n的網站列表，並將這些網址注入上面的wget命令。

來源

2010-06-25 17:34:32 labratmatt

你知道如何停止'wget'下載大文件嗎？（ZIP，ISO等在頁面上鍊接？）我試過'wget'一次，但最終吮吸了很多非HTML垃圾。另外，您不應該爲一般抓取建議'robots = off'。這不是一個好的網民。 – Kornel 2010-06-25 20:03:13

@pornel - 答：我同意，robots = off對於一般的抓取來說不是個好主意，但是在像上面這樣的單個實例中，我沒有看到問題。 B：你似乎可以添加一個選項到wget來查看標題中的內容長度（如果服務器在響應中包含它）。我不認爲wget目前已經實現了這個功能，但我不知道wget的全部內容。任何人有關於此的任何細節？ – labratmatt 2010-06-26 00:17:30

這對於stackoverflow.com非常有用。任何想法爲什麼它只爲像yelp.com這樣的東西拉幾頁？ – 2015-03-01 15:31:46

可下載的HTML測試語料庫

回答

相關問題