我不是在談論HTML標籤,而是用於描述博客文章的標籤,或者是YouTube網站上的視頻或問題。智能地從博客和其他網頁中提取標籤
如果我只是抓取一個網站,我只是使用xpath來提取標籤,或者如果它很簡單,甚至是一個正則表達式。但我希望能夠在我的extract_tags()函數中拋出任何網頁並列出標籤。
我可以想象使用一些簡單的啓發式方法,例如找到所有帶有id或'tag'類的HTML元素等等。但是,這非常脆弱,並且可能會導致大量網頁失敗。你們推薦什麼方法來解決這個問題?
另外,我知道Zemanta和Open Calais,它們都可以猜測一段文本的標籤,但這與真人已經選擇的提取標籤不同。但我仍然喜歡聽到任何其他服務/ API來猜測文檔中的標籤。
編輯:只是要清楚,一個已經爲此工作的解決方案將是偉大的。但我猜測沒有開源軟件已經做到了這一點,所以我真的只是想聽到人們對可能適用於大多數情況的可能方法。它不一定是完美的。編輯2:對於建議通常可行的通用解決方案的人是不可能的,並且我必須爲每個網站/引擎編寫自定義刮板,請考慮arc90 readability tool。這個工具能夠以令人驚訝的準確度爲網上任何給定的文章提取文章文本,使用某種啓發式算法我相信。我還沒有深入研究他們的方法,但它適合於一個小書籤,並沒有涉及太多。我明白提取文章可能比提取標籤更簡單,但它應該作爲可能的例子。
是的,但是這不太可能覆蓋我想要爬行的網站的一半。我無法爲每種可能的結構寫一些東西:/ – ehsanul 2010-09-04 06:20:44