beautifulsoup解析文件夾中的每個html文件webscrapping

我的任務是從目錄中讀取每個html文件。條件是找到每個文件是否包含標籤beautifulsoup解析文件夾中的每個html文件webscrapping

(1) <strong>OO</strong> 
(2) <strong>QQ</strong>

然後

來源

2017-05-28 Michael Lin

你write函數嵌套在for循環，這就是爲什麼你寫的多條線路到您的index.txt，只需移動write退出循環和把你的所有文字黨的變量parti_names這樣的：

participants = soup.find(find_participant) 
parti_names = "" 
for parti in participants.find_next_siblings("p"): 
    if parti.find("strong", text=re.compile(r"(Operator)")): 
     break 
    parti_names += parti.get_text(strip=True)+"," 
    print parti.get_text(strip=True) 

indexFile = open('index.txt', 'a+') 
indexFile.write(filename + ', ' + title.get_text(strip=True) + ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n') 
indexFile.close()

更新：

您可以basename工作得到的文件名：

from os.path import basename 

# you can call it directly with basename 
print(basename("C:/Users/.../output/100107-.html"))

輸出：

100107-.html

來源

2017-05-29 05:24:11

作品，謝謝 –

我還有一個問題，我只想文件名，但輸出給我路徑+文件名。我只是更新了代碼。 –

beautifulsoup解析文件夾中的每個html文件webscrapping

回答

相關問題