蟒蛇HTML標籤提取

它是如何將有可能做到以下幾點：蟒蛇HTML標籤提取

H1 H2 ... HN標籤

並將所有的標題到一個文件正確的順序：

開始與H1 比H2

，直到我們達到一個新的H1

2010-08-17 MacPython

這是一個嚴重不完整的問題。我無法做到頭頂也不會尾巴。 – loevborg 2010-08-17 14:14:05

由於需要掃描整個網站，因此您可能需要查看pycurl以抓取要抓取的文件。儘管如此，請注意不要擊中相當於DoS攻擊的網站。

2010-08-17 14:20:03 mavnn

感謝你們倆。很好，很有趣！我怎樣才能避免被視爲潛在的威脅？ – MacPython 2010-08-17 14:50:22

只是限制你多麼努力，而且經常碰到網站。當然，如果你控制場地，只需選擇一個安靜的時刻，然後錘擊一段時間。沒有任何硬性或快速的指導方針：網站可以應對/被認爲是可接受的將會有很大的不同。 – mavnn 2010-08-17 15:00:29

2010-08-17 14:14:28 gruszczy

回答