2016-05-05 43 views
-1

的最後一個數字,用python傳遞一個網站的分頁,我想查找網站的最後一頁。我如何找到標籤

from bs4 import BeautifulSoup 
import re 

html = your_html_here 

soup = BeautifulSoup(html, "html5lib") 
links = soup.findAll('a', text=re.compile('^\s*\d+\s*$')) 
number = links[-1].string.strip() 
print number 
# 5 

參見: 我通過螢火蟲

<div class="pagination"> 
       <ul> 
        <li> 
           <a> 
            <img src="/images" class="pagination-l"> 
           </a> 
        </li> 
          <li style="float:left;"> 
           <a id="toPage" title="A" class="page-number actif" href="/d"> 
            1 
           </a> 
          </li> 
          <li style="float:left;"> 
           <a id="toPage_0" title="A2" class="p" href="/ew"> 
            2 
           </a> 
          </li> 
          <li style="float:left;"> 
           <a id="toPage_1" title="A3" class="p3" href="/t3"> 
            3 
           </a> 
          </li> 
          <li style="float:left;">...</li> 
          <li style="float:left;"> 
           <a id="toPage_2" title="t" class="p" href="t2"> 
            5 
           </a> 
          </li> 
        <li> 
          <a id="nextPage" title="next(2)" href="/test1"> 
           <img src="test.png" class="pagination-r"> 
          </a> 
        </li> 
       </ul> 
</div> 

在這裏,我要的是

+0

一個字:[** BeautifulSoup **](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) – Jan

+0

@jan我不知道最後一頁的編號 – parik

回答

1

使用解析器和正則表達式的組合的號碼檢查網頁的元素a demo on ideone.com

+1

感謝您的回答和演示 – parik