0
我的任務是從目錄中讀取每個html文件。條件是找到每個文件是否包含標籤beautifulsoup解析文件夾中的每個html文件webscrapping
(1) <strong>OO</strong>
(2) <strong>QQ</strong>
然後
我的任務是從目錄中讀取每個html文件。條件是找到每個文件是否包含標籤beautifulsoup解析文件夾中的每個html文件webscrapping
(1) <strong>OO</strong>
(2) <strong>QQ</strong>
然後
你write
函數嵌套在for
循環,這就是爲什麼你寫的多條線路到您的index.txt
,只需移動write
退出循環和把你的所有文字黨的變量parti_names
這樣的:
participants = soup.find(find_participant)
parti_names = ""
for parti in participants.find_next_siblings("p"):
if parti.find("strong", text=re.compile(r"(Operator)")):
break
parti_names += parti.get_text(strip=True)+","
print parti.get_text(strip=True)
indexFile = open('index.txt', 'a+')
indexFile.write(filename + ', ' + title.get_text(strip=True) + ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n')
indexFile.close()
更新:
您可以basename
工作得到的文件名:
from os.path import basename
# you can call it directly with basename
print(basename("C:/Users/.../output/100107-.html"))
輸出:
100107-.html
作品,謝謝 –
我還有一個問題,我只想文件名,但輸出給我路徑+文件名。我只是更新了代碼。 –