2009-07-06 151 views
0

我只是想知道是否有任何討論處理html文檔結構的資源。例如,如果我有紐約時​​報的頁面,並且對於任何頁面,我想了解主文章在哪裏,頁面中的重要元素在哪裏。對於某些網站,原始html文檔給出了這種類型的處理的一些指示。對於其他網站,通常它提供的格式標籤(字體等)。我研究過OCR技術,但其中大部分都用於識別單個元素,這與OCR完全不同。處理html文檔結構

如果任何人有任何關於此主題的見解,將不勝感激!

+0

我會感到驚訝,如果這被證明比網站屈指可數。除非他們發佈這些信息供您使用,否則我希望他們認爲這與您無關。 – 2009-07-06 18:38:20

回答

1

你在找什麼叫'屏幕抓取'或'數據抓取' - 谷歌搜索會爲你帶來一堆結果。下面是從維基百科的鏈接:Web Scraping

你可以建立一個HTML解析器的頂部像hpricot