0
我正在嘗試識別給定URL的標籤。識別文章標籤
標籤規格是否有任何約定?任何基於常見用法的啓發式方法?
我指的是對網站內容進行分類的網站內標籤。例如在每篇TC文章中,您可以在最後找到「標籤」部分。對於大多數內容網站也一樣。
我正在嘗試識別給定URL的標籤。識別文章標籤
標籤規格是否有任何約定?任何基於常見用法的啓發式方法?
我指的是對網站內容進行分類的網站內標籤。例如在每篇TC文章中,您可以在最後找到「標籤」部分。對於大多數內容網站也一樣。
我希望我能理解你的問題。我相信你是指像'html''正則表達式'等標籤,就像你問題的結尾。
理論上,您可以假設,網頁使用rel="xyz"
作爲標記鏈接。 Stackoverflow做到了,我知道的其他一些網站也做到了。
http://microformats.org/wiki/rel-tag
但我不認爲它非常可靠。由於沒有'必須',這樣的標籤不能保證。
無論如何,如果你想嘗試它並解析內容,我不會建議從頭開始。例如,Jsoup在非常靈活的庫中提供了許多功能。你甚至可以找到具有特定屬性的鏈接標籤。
沒有真正的約定,沒有......這可能比看起來更難。 – 2012-07-28 16:35:14