使用Go lang從網頁中提取鏈接

Go html包已移至[go.net]（https://code.google.com/p/ go/source/browse？repo = net＃hg％2Fhtml）回購。 [Here]（http://godoc.org/code.google.com/p/go.net/html）是文檔。 – ctn

@ctn感謝您的更新。不知道爲什麼你的編輯被拒絕：我已經在答案中恢復了它。 – VonC

謝謝。他們說這會改變原來的意思，我最好留下評論。 – ctn

我搜索了一下，發現有一個名爲Gokogiri的庫，它聽起來和Ruby的Nogokiri一樣。我認爲該項目也是active。

來源

2013-05-17 05:09:26

如果您瞭解jQuery，您一定會喜歡GoQuery。

說實話，它是我在Go中找到的最簡單，最強大的HTML工具，它基於go.net存儲庫中的html包。（好吧，所以它的級別高於只是一個解析器，因爲它不暴露原始的HTML標記之類的，但如果你想真正得到任何與HTML文檔完成後，這個軟件包將幫助。）

來源

2014-08-02 23:03:46 Matt

太棒了。非常感謝。 –

我剛剛爲Go發佈了一個基於事件的基於事件的HTML 5.0兼容解析包。您可以find it here

下面是示例代碼從一個頁面中的所有鏈接（從A元素）：

links := make([]string) 

parser := NewParser(htmlContent) 

parser.Parse(nil, func(e *HtmlElement, isEmpty bool) { 
    if e.TagName == "link" { 
     link,_ := e.GetAttributeValue("href") 
     if(link != "") { 
      links = appends(links, link) 
     } 
    } 
}, nil)

有幾件事情要記住：

這些都是相對的鏈接，而不是完整的網址
不會收集動態生成的鏈接
還有其他鏈接未被收集（META標籤，圖片，iframe，等等。）。修改此代碼以收集這些代碼非常簡單。

來源

2015-09-13 04:21:05

使用Go lang從網頁中提取鏈接

回答

相關問題