2014-02-16 35 views
0

我在C++中創建了一個簡單的網絡爬蟲。目前我已經設法從種子URL獲取HTML代碼,並保存在字符串或文本文件中。解析HTML代碼中的URL C++

如何查找並保存HTML中的URL我想繼續我的網頁爬行?

+0

通過解析您讀取的文件中的HTML。注意:它不*無關緊要。 –

回答

0

要做到這一點,你需要一個合適的HTML解析器。 Gumbo是一個開源的HTML5語法分析器,由Google編寫開發源代碼,您可以使用它來實現類似這樣的事情。