BeautifulSoup提取XPATH或CSS節點的路徑

我想從HTML中提取一些數據，然後能夠在客戶端突出顯示提取的元素而無需修改源html。 XPath或CSS Path對此很好。 可以直接從BeautifulSoup中提取XPATH或CSS路徑嗎？
現在我使用目標元素的標記，然後lxml lib來提取xpath，這對性能非常不利。我知道BSXPath.py - 它不適用於BS4。由於複雜性，重寫所有內容以使用本機lxml庫的解決方案是不可接受的。BeautifulSoup提取XPATH或CSS節點的路徑

import bs4 
import cStringIO 
import random 
from lxml import etree 


def get_xpath(soup, element): 
    _id = random.getrandbits(32) 
    for e in soup(): 
    if e == element: 
     e['data-xpath'] = _id 
     break 
    else: 
    raise LookupError('Cannot find {} in {}'.format(element, soup)) 
    content = unicode(soup) 
    doc = etree.parse(cStringIO.StringIO(content), etree.HTMLParser()) 
    element = doc.xpath('//*[@data-xpath="{}"]'.format(_id)) 
    assert len(element) == 1 
    element = element[0] 
    xpath = doc.getpath(element) 
    return xpath 

soup = bs4.BeautifulSoup('<div id=i>hello, <b id=i test=t>world!</b></div>') 
xpath = get_xpath(soup, soup.div.b) 
assert '//html/bodydiv/b' == xpath

來源

2014-09-22 Dmytro Sadovnychyi

簡答：不，沒有現有的方法。你必須自己構建它。 – 2014-09-22 08:31:55

這其實很容易提取簡單的CSS/XPath的。這是lxml lib給你的。

def get_element(node): 
    # for XPATH we have to count only for nodes with same type! 
    length = len(list(node.previous_siblings)) + 1 
    if (length) > 1: 
    return '%s:nth-child(%s)' % (node.name, length) 
    else: 
    return node.name 

def get_css_path(node): 
    path = [get_element(node)] 
    for parent in node.parents: 
    if parent.name == 'body': 
     break 
    path.insert(0, get_element(parent)) 
    return ' > '.join(path) 

soup = bs4.BeautifulSoup('<div></div><div><strong><i>bla</i></strong></div>') 
assert get_css_path(soup.i) == 'div:nth-child(2) > strong > i'

來源

2015-08-28 04:15:56

恐怕圖書館還沒有這個能力。您可以通過CSS的路徑，抓住他們...... SORTA ......可是，它有點令人費解，在那裏你命名每個元素和類，一個例子：

soup.find("htmlelement", class_="theclass")

您還可以使用的ID，而不是類或兩者如果你喜歡更具體的你抓住。

，你可以修改它保持下去的路徑：

soup.find("htmlelement", class_="theclass").find("htmlelement2", class_="theclass2")

等等等等。

也有辦法通過調用內置的「下一個」功能瀏覽它：

find_next("td", class_="main").find_next("td", class_="main").next.next

來源

2014-11-26 17:55:15 CJACust

BeautifulSoup提取XPATH或CSS節點的路徑

回答

相關問題