我正在爲Firefox瀏覽器插件工作,我希望能夠進行一些自動測試以確保它能正確處理各種不同的HTML/JavaScript功能。有誰知道可用於此類測試的可下載的HTML和/或JavaScript頁面語料庫嗎?可下載的HTML測試語料庫
回答
您是否贊同此頁面:http://acid3.acidtests.org/ ?
我不這麼認爲 - 據我所知,酸測試側重於標準合規性,特別是w.r.t. DOM和JavaScript。我想要更加逼真的頁面,這些頁面不完全兼容,還有一些其他類型的JavaScript功能等。 – 2010-06-14 15:41:00
這ECMAScript 5 test suite測試(幾乎?)當前標準的所有JavaScript功能。只有瀏覽器特定的功能未經過測試。
我不知道HTML/JavaScript的文檔的打包,準備去語料庫(雖然它看起來像其他一些這樣的人做爬行。 )如果我處於你的情況,我會建立自己的語料庫(你會知道它是最新的,你會知道你正在處理的是什麼)。
要建立你自己的,你可以嵌入的the open source crawlers一個,或簡單地使用遞歸wget:
wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log
要擴展上面?編寫一些從Google獲得的排名前n的網站列表,並將這些網址注入上面的wget命令。
你知道如何停止'wget'下載大文件嗎? (ZIP,ISO等在頁面上鍊接?)我試過'wget'一次,但最終吮吸了很多非HTML垃圾。 另外,您不應該爲一般抓取建議'robots = off'。這不是一個好的網民。 – Kornel 2010-06-25 20:03:13
@pornel - 答:我同意,robots = off對於一般的抓取來說不是個好主意,但是在像上面這樣的單個實例中,我沒有看到問題。 B:你似乎可以添加一個選項到wget來查看標題中的內容長度(如果服務器在響應中包含它)。我不認爲wget目前已經實現了這個功能,但我不知道wget的全部內容。任何人有關於此的任何細節? – labratmatt 2010-06-26 00:17:30
這對於stackoverflow.com非常有用。任何想法爲什麼它只爲像yelp.com這樣的東西拉幾頁? – 2015-03-01 15:31:46
- 1. 下載NLTK語料庫時ElementTree.ParseError
- 2. 加載語言語料庫在GATE
- 3. Python nltk.download()'TCLError'無法下載語料庫Fedora 16
- 4. 在nltk中下載所有語料庫有什麼不利嗎?
- 5. 當使用python2.7下載語料庫NLTK時出現UnicodeDecodeError
- 6. 我應該下載哪個語料庫來訪問nltk.corpus.words?
- 7. 如何構建IMS開源語料庫工作臺和NLTK可讀語料庫?
- 8. NER與NLTK ieer或conll2000語料庫的火車語料庫
- 9. 英語語料庫需要
- 10. 語義UI下拉測試
- 11. 來自twitter的語料庫
- 12. tm語料庫:tm_map函數不會更改語料庫
- 13. 單元測試下載
- 14. 硒測試文件下載
- 15. Laravel響應::下載()測試
- 16. Phpunit圖像下載測試
- 17. 測試的HTML語言屬性與jQuery
- 18. 用於測試文本處理功能的樣本數據或語料庫?
- 19. 語言語料庫的搜索引擎
- 20. 俄語至英語平行語料庫?
- 21. 如何脫鉤我的資料庫和的UnitOfWork,以使它們可測試
- 22. 我應該使用哪種gensim語料庫來加載LDA轉換後的語料庫? - Python
- 23. 在沒有丟失語料庫結構的情況下循環通過tm語料庫
- 24. Android的AdMob的下載跟蹤測試
- 25. 刪除一切,但從一個語料庫的HTML標籤
- 26. Wordnet(Word Sense Annotated)語料庫
- 27. 釋義評估語料庫
- 28. XMLCorpusReader未創建語料庫
- 29. CWB編碼語料庫
- 30. 英國國家語料庫
plase指定其他要求:html頁面應包含哪些內容?什麼是不允許包含的?這種頁面的首選行爲是什麼? 根據您對這些問題的回答,可能會自動生成語料庫。 – artistoex 2010-06-21 10:28:19