使用蟒蛇刮網頁

2016-09-07 186 views -2 likes

-2

我習慣使用BeautifulSoup刮網站，但是這個網站是不同的。湯soup.prettify（）我回來的JavaScript代碼，很多東西。我想刮這個網站的實際網站上的數據（公司名稱，電話號碼等）。是否有一種方法可以抓取這些腳本（如Main.js）來檢索網站上顯示的數據給我？使用蟒蛇刮網頁

清晰版：

代碼是：

<script src="/docs/Main.js" type="text/javascript" language="javascript"></script>

這認爲是網站上的文字。我想刮這個文本，但它是使用JS而不是HTML（我曾使用BeautifulSoup）填充。

2016-09-07 Tom Pitts

你能更清楚你想做什麼？ –

[Python與網頁抓取JavaScript頁面]可能的重複（http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python） –

@ AlexanderO'Mara對不起，更新它 –

回答

你在問是否可以在運行時通過Javascript來生成文本。答案很簡單。

您需要運行某種headless browser，如PhantomJS，以便讓Javascript執行並填充頁面。然後，您需要將無頭瀏覽器生成的HTML提供給BeautifulSoup以解析它。

2016-09-07 18:54:08 Soviut

當你說填充頁面。當前網頁上有文字。然而，使用美麗的湯刮它，我回來的是

相關問題