0 它是如何將有可能做到以下幾點:蟒蛇HTML標籤提取 通過HTML頁面(最好是通過全域掃描(www.python.org),並提取所有 H1 H2 ... HN標籤 並將所有的標題到一個文件正確的順序: 開始與H1 比H2 ,直到我們達到一個新的H1 來源 2010-08-17 MacPython +0 這是一個嚴重不完整的問題。我無法做到頭頂也不會尾巴。 – loevborg 2010-08-17 14:14:05
1 由於需要掃描整個網站,因此您可能需要查看pycurl以抓取要抓取的文件。儘管如此,請注意不要擊中相當於DoS攻擊的網站。 來源 2010-08-17 14:20:03 mavnn +0 感謝你們倆。很好,很有趣!我怎樣才能避免被視爲潛在的威脅? – MacPython 2010-08-17 14:50:22 +0 只是限制你多麼努力,而且經常碰到網站。當然,如果你控制場地,只需選擇一個安靜的時刻,然後錘擊一段時間。 沒有任何硬性或快速的指導方針:網站可以應對/被認爲是可接受的將會有很大的不同。 – mavnn 2010-08-17 15:00:29
這是一個嚴重不完整的問題。我無法做到頭頂也不會尾巴。 – loevborg 2010-08-17 14:14:05