bs4

1熱度

1回答

我使用Python 3，我想簡單地下載一個網站的內容如下： # IMPORTS -------------------------------------------------------------------- import urllib.request from bs4 import BeautifulSoup as bs # CLASS DESC ----------------

0熱度

1回答

Python - 美麗的湯選擇只返回[]

我目前正在從Udemy的Python教程（總新手到Python）學習。我目前在一個美麗的湯部分，我們正在忙於練習，以刮除作者在亞馬遜書上的價格。我的代碼如下： import bs4, requests url = 'https://www.amazon.com/Automate-Boring-Stuff-Python-Programming/dp/1593275994/' headers

-1熱度

1回答

根據Google學術搜索的標籤刮掉作者

我正在開發一個項目，希望從Google學術搜索中獲取數據。我想刮掉所有在某個類別中標記的作者（例如，Anaphylaxis），並將他們的引用次數，h-index和i-10索引存儲在CSV文件中。但是，鑑於Google學術搜索沒有API，我不確定如何執行此操作。我知道我可以使用刮刀像美麗的湯，但我不確定如何刮取數據而不被阻塞。所以，我的問題是如何使用bs4來存儲標記爲過敏反應的所有作者以及每個作者

0熱度

1回答

Scrap authors h-index，i10-index和Google學術搜索的總引用

我正在研究一個項目，以從Google學術搜索中獲取數據。我想刮一個作家h指數，總引用和i-10指數（全部）。例如，從Louisa Gilbert我想刮： h-index = 36 i10-index = 74 citations = 4383 我寫了這個： from bs4 import BeautifulSoup import urllib.request url="https://

3熱度

1回答

防止503錯誤時挖Google Scholar

我寫了下面的代碼來從Google Scholar security page.刮數據。但是，每當我運行它我收到此錯誤： Traceback (most recent call last): File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", line 53, in <module> getProfileF

1熱度

1回答

獲取首次發佈的年份Google學術搜索

我正在使用bs4和urllib從Google Scholar中抓取數據。我正試圖讓第一年發佈一篇文章。例如，從this page我試圖得到1996年。這可以從條形圖中讀取，但只能在單擊條形圖後讀取。我已經編寫了下面的代碼，但它會在單擊條形圖之前打印出可見年份。 from bs4 import BeautifulSoup import urllib.request url = 'https:/

0熱度

1回答

變化ATTRS查看全部內容Python的BeautifulSoup

我試圖查看該網站的全部內容fortune.com/best-companies 原始代碼在其腳本如下標籤： <nav id="bottom-panel-pagination" class="panel-pagination hasNextOnly"> <div data-event="view left" class="prev-page icon-new-left-arrow"></d

0熱度

1回答

UTF-8編碼和希臘字符

雖然我設法獲得所需的所有數據，並將其保存在一個cv文件中，但我得到的輸出是UTF-8格式，這是正常的（糾正我如果我錯了） TBH我已經「玩」了.encode（）和.decode（）選項沒有任何結果。這裏是我的代碼 brands=[name.text for name in Unibrands] 這裏是輸出 u'Spirulina \u0395\u03bb\u03bb\u03b7\u03bd\

0熱度

1回答

硒和旋轉容器

有一個頁面帶有一個表格和一個刷新表格的下一個按鈕。我現在可以提取表格的內容，但需要使用下一個按鈕移動到其他行。這是某種沒有href刷新頁面的ajax表。因此我被卡住了。該頁面是https://www.whoscored.com/Regions/252/Tournaments/2/Seasons/6335/Stages/13796/PlayerStatistics/England-Premier-L

0熱度

2回答

Python返回列表

我使用bs4並遍歷所需的單個頁面上的所有鏈接。然後我將這些鏈接存儲在一個列表中。這裏是我的代碼： def scrape1(self): html = self.browser.page_source soup = BeautifulSoup(html, 'html.parser') # add links to list for later use ur