bs4

    0熱度

    1回答

    我正在使用for循環來通過站點的某些目錄進行爬網。 for url in URL_list: for paged in range(1,99): fullURL=("%s/?count=96&paged=%s&p=&page_id="%(url,paged)) print(fullURL) source= urllib.request.urlope

    0熱度

    2回答

    我使用Python 3.5,並試圖刮URL列表(同一網站)的列表,代碼如下: import urllib.request from bs4 import BeautifulSoup url_list = ['URL1', 'URL2','URL3] def soup(): for url in url_list: sauce = urllib.re

    0熱度

    1回答

    展望挑選出從網站如價格,公司信息等具體數據中提取特定註釋節點之間的數據幸運的是,網站設計師已經把大量的標記,如 <!-- Begin Services Table --> ' desired data <!-- End Services Table --> 我需要什麼樣的代碼才能使BS4在給定標籤之間返回字符串? import requests from bs4 import Beaut

    1熱度

    2回答

    我有一個列表我想運行一個代碼塊,但列表長度爲幾千項,並且它需要太長的時間迭代它們。 有沒有一種方法可以讓我的腳本同時對該列表中的每個項目執行檢查? 我的代碼如下所示: def check_url(url_loc): response1 = requests.get(url_loc) time.sleep(10) response2 = requests.get(url

    0熱度

    1回答

    我寫了一些代碼,第一部分我完美地收集了一些標題作品(包含90個值),但第二部分的價格保留了一個不完整的列表(包含30)。它看起來像循環不會爲該部分工作。 我應該如何更改此代碼以保持完整列表? 在此先感謝! import re import requests from bs4 import BeautifulSoup url = "http://www.watcheszon.com/casi

    -1熱度

    1回答

    我想根據我的喜好來格式化此HTML片段。 http://pastebin.com/hwhTLeyk 忽略*的 我只想學院論壇部分, <*strong class="linkBlack">College Forum</strong*> 我已經嘗試了很多事情,包括正則表達式和翻譯,甚至取代但我似乎無法找到一種方法將HTML名稱從HTML 更多代碼(等級Grabber 2000):http://pa

    1熱度

    1回答

    我試圖找到標記中是否存在特定標題,如果標記中未包含該標題,請在t變量中打印文本。 到目前爲止,我可以拉標籤的整個「TD」有: for t in soup.findAll("td",{"class" : "someClass"}): 但是當我使用: title = "someTitle" if title in t: print "contains title" else:

    -3熱度

    1回答

    我一直在做一個刮板一段時間,現在已經非常接近讓它按預期運行。我的代碼如下: import urllib.request from bs4 import BeautifulSoup # Crawls main site to get a list of city URLs def getCityLinks(): city_sauce = urllib.request.urlope

    0熱度

    1回答

    from urllib import request from bs4 import BeautifulSoup as bs #Used these libs 之間我需要存儲這兩個「文本」我將如何做到這一點的, <option value="/random-file/76/6/">Thing</option> <option value="/random-file/36/6/">Thin

    2熱度

    1回答

    此Wikipedia page包含兩個參考錯誤。您可以在頁面底部找到參考錯誤,如上面紅色句子(參考序號6和95)。當我檢查元素時,我發現我應該提取特定的跨度類別,即<span class="error mw-ext-cite-error"如何獲取副本的<span class="error mw-ext-cite-error「數據?外部HTML的 下面的代碼提供所有<span class>數據。 f