bs4

    0熱度

    1回答

    我有一系列網頁,我想要從所有不同的模式中刪除文本。我試圖編寫一個提取<br>標籤後的文本的刮板,因爲該結構對所有頁面都是通用的。 的頁面遵循以下三個基本模式爲最佳,我可以告訴: http://www.p2016.org/ads1/bushad120215.html http://www.p2016.org/ads1/christiead100515.html http://www.p2016.or

    0熱度

    1回答

    BeautifulSoup無法解析帶有選項html5lib的html頁面,但可以正常使用html.parser選項。根據docs,html5lib應該比html.parser更寬鬆,那爲什麼我在使用它解析html頁面時遇到了亂碼? 下面是一個小的可執行例子。(改html5lib與html.parser後,中國輸出是否正常。) #_*_coding:utf-8_*_ import requests

    0熱度

    1回答

    得到了the Steam Community market search這個奇怪的html: <span class=\"normal_price\">$2.69 USD<\/span> 如何使用BS4提取數據?這是行不通的: soup.find("span", attrs={"class": "\"normal_price\""})

    0熱度

    1回答

    我試圖用美麗的湯迅速得到只有某些spans具有一定的階級,我似乎無法按類進行搜索,但我可以通過ID搜索: In [40]: last_a_tag = soup.find_all("a", id="link3") In [41]: spans = soup.find_all("span", class="iaLabel") File "<ipython-input-41-c15da62

    1熱度

    1回答

    我正在構建一個簡單的硒刮刀。它應該檢查「聯繫」鏈接的存在,然後,如果存在,使用正則表達式解析它的電子郵件。如果不是,解析Selenium所在的頁面。 問題在於,前三個(隨機選擇的)網站的程序雖然可以獲得電子郵件,但對於最後一個,它不僅不會刮掉電子郵件頁面,而且甚至不會關閉瀏覽器。然而,無論如何,循環似乎都會結束,因爲輸出是「成功」。我在做什麼錯誤,爲什麼它不會報廢dicti_pretty_link

    2熱度

    1回答

    當我試圖通過此代碼達到圖像標記時,我得到以下輸出。 url = 'https://paytm.com/shop/p/pepe-jeans-blue-slim-fit-t-shirts-APPPEPE-JEANS-BSETU2010438B648267' def soup_maker(url): r = requests.get(url) markup = r.content

    1熱度

    1回答

    我試圖讀取並追加到一個文件,但是當我使用情況管理器它似乎並沒有工作。 在這段代碼中,我試圖讓一個網站,包含在我的「serien」列表中的一個項目的所有鏈接。如果鏈接在列表中,我首先檢查鏈接是否已經在文件中。如果找到鏈接,則不應該再次追加鏈接。但它確實如此。 我要麼猜測,我沒有使用正確的模式或者說我有點搞砸了我的情況管理器。還是我使用上下文管理我的第一次完全錯誤 import requests f

    0熱度

    1回答

    我使用的代碼,如下面下一頁解析頁: def parseNextThemeUrl(url): ret = [] ret1 = [] html = urllib.request.urlopen(url) html = BeautifulSoup(html, PARSER) html = html.find('a', class_='pager_next

    1熱度

    1回答

    我在瀏覽其他許多問題後遇到困難。我的代碼目前正在將數據分解成命名行,但是返回的是整行代碼,而不僅僅是包含文本,我只是從以下行中尋找ASCO VALVE MFG。,INC。:我不知道如何才能拔出該行中的文本。 <td nowrap="nowrap" align="left"><font size="3" face="Arial,Helvetica,sans-serif">****ASCO VALVE

    1熱度

    2回答

    我正在使用BS4表中的文本作爲 soup = BeautifulSoup(html_text) table = soup.find("table", attrs={"class":"table_class"}) headings = [i.get_text() for i in table.find("tr").find_all("td")] 但我怎麼能有序列2的findall所有元素的