2012-07-28 100 views
0

我正在嘗試識別給定URL的標籤。識別文章標籤

標籤規格是否有任何約定?任何基於常見用法的啓發式方法?

我指的是對網站內容進行分類的網站內標籤。例如在每篇TC文章中,您可以在最後找到「標籤」部分。對於大多數內容網站也一樣。

+0

沒有真正的約定,沒有......這可能比看起來更難。 – 2012-07-28 16:35:14

回答

1

我希望我能理解你的問題。我相信你是指像'html''正則表達式'等標籤,就像你問題的結尾。

理論上,您可以假設,網頁使用rel="xyz"作爲標記鏈接。 Stackoverflow做到了,我知道的其他一些網站也做到了。

http://microformats.org/wiki/rel-tag

但我不認爲它非常可靠。由於沒有'必須',這樣的標籤不能保證。

無論如何,如果你想嘗試它並解析內容,我不會建議從頭開始。例如,Jsoup在非常靈活的庫中提供了許多功能。你甚至可以找到具有特定屬性的鏈接標籤。