提取與BeautifulSoup

具體的數據我想從這個片段中提取數據位：提取與BeautifulSoup

<div id="information_content"> 
    <b>Name:</b> file.rar <br> 
    <b>Date Modified:</b> 2 days ago <br> 
    <b>Size:</b> 212.19 MB <br> 
    <b>Type:</b> Archive <br> 
    <b>Permissions:</b> Public </div> 
</div>

我只想212.19 MB提取。

我已經使用soup.find('div', attrs={'id': 'information_content'})提取了片段，但我無法弄清楚如何進一步鑽取以獲得我所需要的內容。

任何人都可以幫忙嗎？

來源

2014-02-13 Daniel Pilch

您可以在這裏找到答案：http://stackoverflow.com/questions/21750979/beautifulsoup4-正確的路使用的 - 查找 - 所有 – WKPlus

由於BeautifulSoup不支持Xpath，最好的方法是使用lxml。

來源

2014-02-13 11:15:35 l3aronsansgland

如果DIV始終具有相同的結構，則可以按照此說明使用BeautifulSoup。一旦你得到了提取的DIV，用文本創建一個新的LIST，按'\ n'分割。然後，只需選擇列表的正確元素。

我做過類似的東西，在這裏我解釋一切，我做的事：從Quiniela抽取獎品 - http://www.manejandodatos.es/2014/2/python-beautifulsoup-extracting-prizes-quiniela

我希望它能幫助： Python和BeautifulSoup！

來源

2014-02-13 11:57:12 combuilder

如前所述，如果這些div的結構總是相同的，如果您拆分，大小將在第三個字符串中。

>>>> x = '<div id="information_content"> <b>Name:</b> file.rar <br> <b>Date Modified:</b> 2 days ago <br> <b>Size:</b> 212.19 MB <br> <b>Type:</b> Archive <br> <b>Permissions:</b> Public </div> </div>' 
>>>> x.split('<br>')[2] 
' <b>Size:</b> 212.19 MB '

從那裏你可以使用正則表達式來得到你需要的部分。例如這種模式這種格式的所有值相匹配：

\d+.\d\d\s.B

它匹配10.00 KB以及1000.34 TB

來源

2014-02-13 12:09:33 dekkerr

提取與BeautifulSoup

回答

相關問題