2017-04-24 48 views
0

目前我正在嘗試編寫一個程序,該程序將在html本地文件中搜索標籤和該標籤前面的字符(直到空格或輸入),但是我不'我知道怎麼做,我編寫了一些代碼,但它不工作,它只列出了html上的所有文本,而不是查找PA和字符。需要python程序的幫助。如何從HTML中搜索和保存ID

這裏是我到目前爲止的代碼:

from bs4 import BeautifulSoup 
import re 

ecj_data = open('output.html', 'r').read() 
soup = BeautifulSoup(ecj_data, 'lxml') 
d = 'PA' 
soup_strings = [ l for l in list(soup.strings) if l.strip() != '' ] 
for s in soup_strings : 
    print(s) 
+0

而你的程序到底應該在哪裏「尋找PA和角色」? –

+0

對不起,我粘貼了錯誤的代碼文件,我的壞 – fsgdfgsd

回答

0

你的意思是搜索詞包括 'PA'?請在下面嘗試。

for i in soup.strings.split(' '): 
    if 'PA' in i: 
     print (i) 
+0

它返回了一個錯誤「'發電機'的對象沒有屬性'拆分'」 – fsgdfgsd

+0

因爲不知道你的soup.strings是什麼,請粘貼'湯的價值。 – michael

+0

我正在做一個測試的HTML,但我可以粘貼在這裏,我用gyazo打印: https://gyazo.com/ae1e94f3b1ae990d67372d79a57987b3 – fsgdfgsd