2012-03-12 40 views
0

是否有可能從給定的網址獲取所有鏈接以獲取給定網站的所有結構?獲取指定域中所有網站的鏈接,任何工具?

例如:

www.test.com 
www.test.com/page1.aspx 
www.test.com/page2.aspx 
www.test.com/page3.aspx 
www.test.com/page1.aspx?id=1 
... 

像wget的,但只有程序來檢索鏈接

感謝您的幫助

+0

這些鏈接從哪裏來? – Oded 2012-03-12 16:22:56

+0

正在尋找一個選項?您是否只查找通過超鏈接公開的頁面列表,或者您是否需要能夠獲取域中所有有效URL的列表? – 2012-03-12 16:24:16

+0

來自html(頁面結構) – gruber 2012-03-12 16:24:16

回答

0

如果你的意思是你想獲得一個頁面,你可以在所有的鏈接使用HTML Agility Pack來下載,解析和查詢它包含的所有鏈接的HTML。

這可以擴展到遵循這些鏈接(保留已訪問的鏈接的列表,以便您不進入循環),然後輪到它們並獲取返回頁面上的鏈接。

這些是原始爬蟲的原料。

相關問題