bs4

    1熱度

    1回答

    我使用Python 3,我想簡單地下載一個網站的內容如下: # IMPORTS -------------------------------------------------------------------- import urllib.request from bs4 import BeautifulSoup as bs # CLASS DESC ----------------

    0熱度

    1回答

    我目前正在從Udemy的Python教程(總新手到Python)學習。 我目前在一個美麗的湯部分,我們正在忙於練習,以刮除作者在亞馬遜書上的價格。 我的代碼如下: import bs4, requests url = 'https://www.amazon.com/Automate-Boring-Stuff-Python-Programming/dp/1593275994/' headers

    -1熱度

    1回答

    我正在開發一個項目,希望從Google學術搜索中獲取數據。我想刮掉所有在某個類別中標記的作者(例如,Anaphylaxis),並將他們的引用次數,h-index和i-10索引存儲在CSV文件中。但是,鑑於Google學術搜索沒有API,我不確定如何執行此操作。我知道我可以使用刮刀像美麗的湯,但我不確定如何刮取數據而不被阻塞。 所以,我的問題是如何使用bs4來存儲標記爲過敏反應的所有作者以及每個作者

    0熱度

    1回答

    我正在研究一個項目,以從Google學術搜索中獲取數據。我想刮一個作家h指數,總引用和i-10指數(全部)。例如,從Louisa Gilbert我想刮: h-index = 36 i10-index = 74 citations = 4383 我寫了這個: from bs4 import BeautifulSoup import urllib.request url="https://

    3熱度

    1回答

    我寫了下面的代碼來從Google Scholar security page.刮數據。但是,每當我運行它我收到此錯誤: Traceback (most recent call last): File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", line 53, in <module> getProfileF

    1熱度

    1回答

    我正在使用bs4和urllib從Google Scholar中抓取數據。我正試圖讓第一年發佈一篇文章。例如,從this page我試圖得到1996年。這可以從條形圖中讀取,但只能在單擊條形圖後讀取。我已經編寫了下面的代碼,但它會在單擊條形圖之前打印出可見年份。 from bs4 import BeautifulSoup import urllib.request url = 'https:/

    0熱度

    1回答

    我試圖查看該網站的全部內容fortune.com/best-companies 原始代碼在其腳本如下標籤: <nav id="bottom-panel-pagination" class="panel-pagination hasNextOnly"> <div data-event="view left" class="prev-page icon-new-left-arrow"></d

    0熱度

    1回答

    雖然我設法獲得所需的所有數據,並將其保存在一個cv文件中,但我得到的輸出是UTF-8格式,這是正常的(糾正我如果我錯了) TBH我已經「玩」了.encode()和.decode()選項沒有任何結果。 這裏是我的代碼 brands=[name.text for name in Unibrands] 這裏是輸出 u'Spirulina \u0395\u03bb\u03bb\u03b7\u03bd\

    0熱度

    1回答

    有一個頁面帶有一個表格和一個刷新表格的下一個按鈕。我現在可以提取表格的內容,但需要使用下一個按鈕移動到其他行。這是某種沒有href刷新頁面的ajax表。因此我被卡住了。該頁面是https://www.whoscored.com/Regions/252/Tournaments/2/Seasons/6335/Stages/13796/PlayerStatistics/England-Premier-L

    0熱度

    2回答

    我使用bs4並遍歷所需的單個頁面上的所有鏈接。然後我將這些鏈接存儲在一個列表中。 這裏是我的代碼: def scrape1(self): html = self.browser.page_source soup = BeautifulSoup(html, 'html.parser') # add links to list for later use ur