2016-09-07 186 views
-2

我習慣使用BeautifulSoup刮網站,但是這個網站是不同的。湯soup.prettify()我回來的JavaScript代碼,很多東西。我想刮這個網站的實際網站上的數據(公司名稱,電話號碼等)。是否有一種方法可以抓取這些腳本(如Main.js)來檢索網站上顯示的數據給我?使用蟒蛇刮網頁

清晰版:

代碼是:

<script src="/docs/Main.js" type="text/javascript" language="javascript"></script> 

這認爲是網站上的文字。我想刮這個文本,但它是使用JS而不是HTML(我曾使用BeautifulSoup)填充。

+0

你能更清楚你想做什麼? –

+0

[Python與網頁抓取JavaScript頁面]可能的重複(http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –

+0

@ AlexanderO'Mara對不起,更新它 –

回答

1

你在問是否可以在運行時通過Javascript來生成文本。答案很簡單。

您需要運行某種headless browser,如PhantomJS,以便讓Javascript執行並填充頁面。然後,您需要將無頭瀏覽器生成的HTML提供給BeautifulSoup以解析它。

+0

當你說填充頁面。當前網頁上有文字。然而,使用美麗的湯刮它,我回來的是