bs4

0熱度

1回答

我正在使用for循環來通過站點的某些目錄進行爬網。 for url in URL_list: for paged in range(1,99): fullURL=("%s/?count=96&paged=%s&p=&page_id="%(url,paged)) print(fullURL) source= urllib.request.urlope

0熱度

2回答

刮網址

我使用Python 3.5，並試圖刮URL列表（同一網站）的列表，代碼如下： import urllib.request from bs4 import BeautifulSoup url_list = ['URL1', 'URL2','URL3] def soup(): for url in url_list: sauce = urllib.re

0熱度

1回答

Python的 - 與BeautifulSoup 4

展望挑選出從網站如價格，公司信息等具體數據中提取特定註釋節點之間的數據幸運的是，網站設計師已經把大量的標記，如  ' desired data  我需要什麼樣的代碼才能使BS4在給定標籤之間返回字符串？ import requests from bs4 import Beaut

1熱度

2回答

如何在python中同時在列表中的所有項目上運行代碼塊

我有一個列表我想運行一個代碼塊，但列表長度爲幾千項，並且它需要太長的時間迭代它們。有沒有一種方法可以讓我的腳本同時對該列表中的每個項目執行檢查？我的代碼如下所示： def check_url(url_loc): response1 = requests.get(url_loc) time.sleep(10) response2 = requests.get(url

0熱度

1回答

bs4解析器保留一個不完整的列表

我寫了一些代碼，第一部分我完美地收集了一些標題作品（包含90個值），但第二部分的價格保留了一個不完整的列表（包含30）。它看起來像循環不會爲該部分工作。我應該如何更改此代碼以保持完整列表？在此先感謝！ import re import requests from bs4 import BeautifulSoup url = "http://www.watcheszon.com/casi

-1熱度

1回答

使用Python抓取部分HTML 3

我想根據我的喜好來格式化此HTML片段。 http://pastebin.com/hwhTLeyk 忽略*的我只想學院論壇部分， <*strong class="linkBlack">College Forum</strong*> 我已經嘗試了很多事情，包括正則表達式和翻譯，甚至取代但我似乎無法找到一種方法將HTML名稱從HTML 更多代碼（等級Grabber 2000）：http://pa

1熱度

1回答

查找標記BS4中是否存在標題

我試圖找到標記中是否存在特定標題，如果標記中未包含該標題，請在t變量中打印文本。到目前爲止，我可以拉標籤的整個「TD」有： for t in soup.findAll("td",{"class" : "someClass"}): 但是當我使用： title = "someTitle" if title in t: print "contains title" else:

-3熱度

1回答

Python刮板諮詢

我一直在做一個刮板一段時間，現在已經非常接近讓它按預期運行。我的代碼如下： import urllib.request from bs4 import BeautifulSoup # Crawls main site to get a list of city URLs def getCityLinks(): city_sauce = urllib.request.urlope

0熱度

1回答

Python的BeautifulSoup，如何存儲文本標記和符號

from urllib import request from bs4 import BeautifulSoup as bs #Used these libs 之間我需要存儲這兩個「文本」我將如何做到這一點的， <option value="/random-file/76/6/">Thing</option> <option value="/random-file/36/6/">Thin

2熱度

1回答

如何通過維基百科頁面的BS4過濾特定的span類？

此Wikipedia page包含兩個參考錯誤。您可以在頁面底部找到參考錯誤，如上面紅色句子（參考序號6和95）。當我檢查元素時，我發現我應該提取特定的跨度類別，即<span class="error mw-ext-cite-error"如何獲取副本的<span class="error mw-ext-cite-error「數據？外部HTML的下面的代碼提供所有<span class>數據。 f