我想要得到例如爲BBC的網站(bbc.co.uk)網站所有網頁它會得到http://www.bbc.co.uk/news/,http://www.bbc.co.uk/weather/等的Java得到的所有網頁(網站地圖),任何網站
一種方式我可以想到這樣做只是從主頁開始,並收集所有鏈接,併爲主頁上的每個鏈接網頁做相同的集合。基本上最終的目標是爲任何網站生成一個網站地圖。
有沒有人有任何其他解決方案比這更有效?
謝謝。
我想要得到例如爲BBC的網站(bbc.co.uk)網站所有網頁它會得到http://www.bbc.co.uk/news/,http://www.bbc.co.uk/weather/等的Java得到的所有網頁(網站地圖),任何網站
一種方式我可以想到這樣做只是從主頁開始,並收集所有鏈接,併爲主頁上的每個鏈接網頁做相同的集合。基本上最終的目標是爲任何網站生成一個網站地圖。
有沒有人有任何其他解決方案比這更有效?
謝謝。
硒可以用來實現相同的
WebDriver driver = new FirefoxDriver();
driver.load("http://bbc.co.uk");
// get all links from page
List<WebElement> links = driver.findElements(By.tagName("a"));
for(WebElement link : links){
// Store link and do something
}
您可以嘗試xpath – Leo