1

我想修剪了所有的空格和新的生產線,並從刪除標記之間的換行符在HTML中python3

<title> 

    Asian Case Research Journal (World Scientific) 

</title> 

把結果給這個

<title>Asian Case Research Journal (World Scientific)</title> 

我的代碼:

for link in url_list: 
    try: 
    r = requests.get(link) 
    soup = BeautifulSoup(r.content,"html.parser") 
    print(soup.title) 
except: 
    print("No Title Found ") 
    continue 

回答

1
import bs4 

html = '''<title> 

    Asian Case Research Journal (World Scientific) 

</title>''' 
soup = bs4.BeautifulSoup(html, 'lxml') 
title = soup.title 
title.string = title.get_text(strip=True) 
print(str(title)) 

出來:

<title>Asian Case Research Journal (World Scientific)</title> 

在BS4,標籤是具有字符串屬性的對象,您可以訪問或.符號修改它,使用標籤對象轉換爲python str對象str(tag)

文檔:modifying-string

0

試試這個,並修改它爲你的用例。

desired_string = ''.join([x.strip() for x in str(soup.title).split('\r\n')]) 
0

soup.title.text.strip()應該這樣做