1
我使用python的硒捕捉程序源代碼Python的SeleniumExtract包含的HREF特定字符串
elem = browser.find_element_by_xpath("//*")
source_code = elem.get_attribute("outerHTML")
我需要從包含像關鍵字的源代碼中提取元素 - 果醬,蜂蜜,巧克力和打印到文件命名recipes.txt例如
/items/John-string-jam-string.html
這些是在href值的格式的例子
<a href="/items/John-string-jam-string.html"
<a href="/items/Paul-string-string-jam-string.html"
<a href="/items/string-Mary-honey-string.html"
<a href="/items/choc-string-string.html"
還有許多其他<a href =/items/
不包含我不想要的關鍵詞。
我是新來的蟒蛇和硒,但我很享受挑戰。在此先感謝您的幫助。
第一個建議是正是我所期待的。謝謝。 – Newbe