我想從以下頁面提取數據:替代包含標題的innerhtml?
其中,方便,效率低下不夠,包括嵌入在頭一個CSV文件中的所有數據,作爲變量稱爲gs_csv。
我該如何解壓? Document.body.innerhtml
跳過數據所在的標題,包含標題的備選項(或更好的與gs_csv
相關的值)是什麼? (對不起,這些都是新鮮事,我一直在搜索大量的文檔,並嘗試了很多,但目前爲止還沒有發揮作用)。
感謝思南(這主要是他的解決方案轉錄成Python)。
import win32com.client
import time
import os
import os.path
ie = Dispatch("InternetExplorer.Application")
ie.Visible=False
ie.Navigate("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#")
time.sleep(20)
webpage=ie.document.body.innerHTML
s1=ie.document.scripts(1).text
s1=s1[s1.find("gs_csv")+8:-11]
scriptfilepath="c:\FO Share\bmreports\script.txt"
scriptfile = open(scriptfilepath, 'wb')
scriptfile.write(s1.replace('\n','\n'))
scriptfile.close()
ie.quit
(鏈接省略,因爲我是一個新手。) 如果有幫助,這是一個Python腳本,如下 進口win32com.client 進口時間 進口OS 進口os.path中 即=調度( 「InternetExplorer.Application」) ie.Visible =真 即.Navigate(「http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#」) 時間。 sleep(20) webpage = ie.document.body#.innerHTML logfilepath =「p:\\ my documents \\ Python \\ webpagetmp.txt」 LOG_FILE =開放(LOGFILEPATH, 「WB」) log_file.write(網頁) log_file.close() 打印網頁 ie.quit – Brendan 2009-05-25 13:06:50
你可以做一個HTTP請求,得到整個字符串,和grep頭? – DonkeyMaster 2009-05-25 15:45:43