2010-08-17 282 views
0

它是如何將有可能做到以下幾點:蟒蛇HTML標籤提取

  1. 通過HTML頁面(最好是通過全域掃描(www.python.org),並提取所有

H1 H2 ... HN標籤

並將所有的標題到一個文件正確的順序:

開始與H1 比H2

,直到我們達到一個新的H1

+0

這是一個嚴重不完整的問題。我無法做到頭頂也不會尾巴。 – loevborg 2010-08-17 14:14:05

回答

1

由於需要掃描整個網站,因此您可能需要查看pycurl以抓取要抓取的文件。儘管如此,請注意不要擊中相當於DoS攻擊的網站。

+0

感謝你們倆。很好,很有趣!我怎樣才能避免被視爲潛在的威脅? – MacPython 2010-08-17 14:50:22

+0

只是限制你多麼努力,而且經常碰到網站。當然,如果你控制場地,只需選擇一個安靜的時刻,然後錘擊一段時間。 沒有任何硬性或快速的指導方針:網站可以應對/被認爲是可接受的將會有很大的不同。 – mavnn 2010-08-17 15:00:29