我正在寫一個python腳本,其中一個循環將運行並通過名稱中的字符串'_CriteriaOutput.html'在多個目錄中查找特定的html頁面。每個目錄包含多個html文件和包含上述字符串的4-5個html文件。我想要做的就是用'_CriteriaOutput.html'名稱讀取這些html文件,並將其合併到不同的html文件中。我會在下面給我的代碼(無論我迄今爲止做了什麼)。這段代碼讀取了我無用的html文件的源代碼。我想只有文字(如果HTML文件中的任何存在)從多個html文件中讀取文本併合併到不同的html文件中python腳本
import os
import fileinput
NightlyLogs = r'C:/Users/<user>/Desktop/Nightly_Logs/2015_07_16-0940'
dir = [fol for fol in os.listdir(NightlyLogs) if os.path.isdir(os.path.join(NightlyLogs, fol))]
dir = sorted(dir)
for folder in dir:
HtmlLoc = r'%s/%s' %(NightlyLogs, folder)
abc = [file for file in os.listdir(HtmlLoc) if file.endswith('_CriteriaOutput.html')]
for one in abc:
HtmlFile = r'%s/%s' %(HtmlLoc, one)
open_file = open(HtmlFile, 'r')
print open_file.read()
NightlyLogs是其中包含的文件夾與CL(變更表)名的位置(如876564或865664等)。每個HTML文件(例如A_CriteriaOutput.html或B_CriteriaOutput.html名稱)包含特定系列(比如說A或B或C等)的信息,每個具有特定CL名稱的文件夾都包含相似的_CriteriaOutput.html文件,其中僅包含該CL 。我想創建一個CL作爲列,A,B,C,D,E作爲行的表,其中將包含該特定系列的信息。我試圖具體,但如果你認爲一些信息缺失,請幫助我學習。我會盡力提供儘可能多的信息。謝謝。
從字符串[地帶HTML可能重複在Python中](http://stackoverflow.com/questions/753052/strip-html-from-strings-in-python) – SuperBiasedMan
我找不到我的問題在上面提到的線程完整的答案,除了我的問題是不同的更關於創建html表格。 –
那裏的信息應該會幫助你進一步瞭解。它沒有解釋如何將信息整合到表格中,但它具有關於如何從文件中讀取信息的良好信息。 – SuperBiasedMan