bs4

0熱度

1回答

我將使用beautifulsoup地發現，在「內容邏輯定義」，在下面的鏈接中定義的表： 1) https://www.hl7.org/fhir/valueset-account-status.html 2) https://www.hl7.org/fhir/valueset-activity-reason.html 3) https://www.hl7.org/fhir/valueset-ag

0熱度

2回答

提取標籤與多值屬性

我與下面的代碼實驗： import re from bs4 import BeautifulSoup htmlsource1 = """<div class="small-12 columns "> <h5 class="clsname1 large-text seq2">text1</h5> <h5 class="clsname1 small-text s

1熱度

2回答

使用蟒蛇string.strip（）來提取特定coloumns

import requests from bs4 import BeautifulSoup f = open('path to create /Price.csv','w') errorFile = open('path to create /errorPrice.txt','w') year = 2012; month = 1; day =1 if year<= 2016:

1熱度

2回答

與蟒蛇

刮網站時獲得最大頁面編號和我很新的蟒蛇，並在大學裏颳了一些數據的網站爲一療程： Xrel 我能得到我需要的信息。問題是我需要它爲每個條目（頁面，月份，年份）。每月的頁數不同。有沒有什麼辦法可以提取最大頁碼，這樣我就可以存儲它並將其用於循環？我將不勝感激任何幫助。謝謝！

1熱度

1回答

美麗的湯4 HTML文檔目錄

我這個代碼工作： from bs4 import BeautifulSoup import glob import os import re def trade_spider(): os.chdir(r"C:\Users\6930p\FLO'S DATEIEN\Master FAU\Sommersemester 2016\02_Masterarbeit\04_Testumgeb

-1熱度

1回答

如何擺脫文本上方的空白，使用bs4

好的，所以我使用bs4（BeautifulSoup）解析通過網站，並找到我正在尋找的具體標題。我的代碼如下所示： import requests from bs4 import BeautifulSoup url = 'http://www.ewn.co.za/Categories/Local' r = requests.get(url).text soup = BeautifulSoup

2熱度

2回答

TypeError：必須可轉換爲緩衝區，而不是ResultSet

我試圖使用scraperwiki和bs4將PDF轉換爲文本文件。我得到TypeError。我對Python非常感興趣，並且非常感謝您的幫助。發生錯誤的位置： File "scraper_wiki_download.py", line 53, in write_file f.write(soup) 這是我的代碼： # Get content, regardless of whether an

1熱度

1回答

如何在html5中使用bs4（python）查找視頻標籤

在下面的代碼中，我創建了一個函數，它嘗試使用bs4從html5中的視頻標籤中獲取src，但似乎不起作用 import urllib from bs4 import BeautifulSoup def spider(start_at, end): i = 39841 while (i + start_at) <= (end + i): url = "http://wwww.g

3熱度

1回答

提取/分解一些'td'標籤後，無法訪問'td'標籤超出表格的第一行

在此示例表中有兩行四列，每行的前兩個單元格包含PDF文件，這是我想提取。每行中的另外兩個是ZIP文件。我知道我可以在'findAll'方法中直接過濾PDF文件，但這個表只是一小部分。整個HTML頁面是非常不一致的（至少對我而言）。所以，我正在考慮刪除不包含PDF文件的標籤。我不明白結果。當我使用'decompose'去除包含ZIP文件的標籤時，只有第一行的PDF文件是可訪問的;第二行中的兩個

0熱度

1回答

美麗的湯在一個表中

對於下面的一段HTML代碼捕獲空值，我用beautifulsoup捕捉表信息： <table> <tr> <td><b>Code</b></td> <td><b>Display</b></td> </tr> <tr> <td>min</td> <td>Minute</td><td/> </tr> <tr> <td>happy </td> <td>Hour</td><td/>