bs4

0熱度

1回答

我有一系列網頁，我想要從所有不同的模式中刪除文本。我試圖編寫一個提取<br>標籤後的文本的刮板，因爲該結構對所有頁面都是通用的。的頁面遵循以下三個基本模式爲最佳，我可以告訴： http://www.p2016.org/ads1/bushad120215.html http://www.p2016.org/ads1/christiead100515.html http://www.p2016.or

0熱度

1回答

BeautifulSoup無法用`html5lib`解析html

BeautifulSoup無法解析帶有選項html5lib的html頁面，但可以正常使用html.parser選項。根據docs，html5lib應該比html.parser更寬鬆，那爲什麼我在使用它解析html頁面時遇到了亂碼？下面是一個小的可執行例子。（改html5lib與html.parser後，中國輸出是否正常。） #_*_coding:utf-8_*_ import requests

0熱度

1回答

BS4得到類信息與怪異的名字

得到了the Steam Community market search這個奇怪的html： <span class=\"normal_price\">$2.69 USD<\/span> 如何使用BS4提取數據？這是行不通的： soup.find("span", attrs={"class": "\"normal_price\""})

0熱度

1回答

由標籤的class美麗的湯直接搜索

我試圖用美麗的湯迅速得到只有某些spans具有一定的階級，我似乎無法按類進行搜索，但我可以通過ID搜索： In [40]: last_a_tag = soup.find_all("a", id="link3") In [41]: spans = soup.find_all("span", class="iaLabel") File "<ipython-input-41-c15da62

1熱度

1回答

Python：爲什麼Selenium沒有使用Regex去掉循環中的最後一個網頁？

我正在構建一個簡單的硒刮刀。它應該檢查「聯繫」鏈接的存在，然後，如果存在，使用正則表達式解析它的電子郵件。如果不是，解析Selenium所在的頁面。問題在於，前三個（隨機選擇的）網站的程序雖然可以獲得電子郵件，但對於最後一個，它不僅不會刮掉電子郵件頁面，而且甚至不會關閉瀏覽器。然而，無論如何，循環似乎都會結束，因爲輸出是「成功」。我在做什麼錯誤，爲什麼它不會報廢dicti_pretty_link

2熱度

1回答

如何從鏈接獲取圖片？

當我試圖通過此代碼達到圖像標記時，我得到以下輸出。 url = 'https://paytm.com/shop/p/pepe-jeans-blue-slim-fit-t-shirts-APPPEPE-JEANS-BSETU2010438B648267' def soup_maker(url): r = requests.get(url) markup = r.content

1熱度

1回答

讀取和附加文件上下文管理器：似乎不讀，只寫

我試圖讀取並追加到一個文件，但是當我使用情況管理器它似乎並沒有工作。在這段代碼中，我試圖讓一個網站，包含在我的「serien」列表中的一個項目的所有鏈接。如果鏈接在列表中，我首先檢查鏈接是否已經在文件中。如果找到鏈接，則不應該再次追加鏈接。但它確實如此。我要麼猜測，我沒有使用正確的模式或者說我有點搞砸了我的情況管理器。還是我使用上下文管理我的第一次完全錯誤 import requests f

0熱度

1回答

如何用美麗的湯來解析下一頁？

我使用的代碼，如下面下一頁解析頁： def parseNextThemeUrl(url): ret = [] ret1 = [] html = urllib.request.urlopen(url) html = BeautifulSoup(html, PARSER) html = html.find('a', class_='pager_next

1熱度

1回答

Python和BeautifulSoup4 - 從TD標籤中提取文本

我在瀏覽其他許多問題後遇到困難。我的代碼目前正在將數據分解成命名行，但是返回的是整行代碼，而不僅僅是包含文本，我只是從以下行中尋找ASCO VALVE MFG。，INC。：我不知道如何才能拔出該行中的文本。 <td nowrap="nowrap" align="left"><font size="3" face="Arial,Helvetica,sans-serif">****ASCO VALVE

1熱度

2回答

如何獲得按順序

我正在使用BS4表中的文本作爲 soup = BeautifulSoup(html_text) table = soup.find("table", attrs={"class":"table_class"}) headings = [i.get_text() for i in table.find("tr").find_all("td")] 但我怎麼能有序列2的findall所有元素的