我正在製作一個Java程序,它涉及從網頁中提取標籤。對於解析,我使用Jsoup,它工作正常。但是有一些問題下載頁面中的標籤。 我有4個文件: -我如何獲得HTML中的所有腳本的內容
- goog1.htm
- goog2.html(這是我從https://www.google.co.in通過瀏覽器保存的)(我下載使用命令 'wget的https://www.google.co.in')
- goog3.html(我通過我的Java程序下載使用的BufferedReader的InputStreamReader &)
- goog4.html(這是我獲得通過複製整個代碼「查看源代碼:https://www.google.co.in/」)
當我在這4個文件中搜索字符串「< script />」時,所有結果都不一樣。
- goog1.htm - 16倍
- goog2.html - 5倍
- goog3.html - 5倍
- goog4.html - 10倍
什麼是這種情況的原因區別 ?如何從頁面獲取所有腳本標記?
我應該使用哪個文件來測試我的程序?
在此先感謝...
*「我應該使用哪個文件來測試我的計劃嗎?」 *也許從一個Web服務,不走極端,以防止** **的編程訪問(如谷歌一樣)? – 2013-05-03 12:25:41
您是否處理了從這些網站獲取的內容,或者您是否也要求這樣做? – 2013-05-03 12:44:06