我目前的工作,從一個股票網站與Python
http://markets.usatoday.com/custom/usatoday-com/html-mktscreener.asp
我需要提取的所有列符號提取信息的Python程序中提取。在此計劃之前,我必須創建一個bash腳本,每分鐘下載頁面1小時以獲得60頁。我已經完成了。但我不明白如何提取信息,所以我可以將這些信息注入MySQL數據庫。
import libxml2
import sys
import os
import commands
import re
import sys
import MySQLdb
from xml.dom.minidom import parse, parseString
# for converting dict to xml
from cStringIO import StringIO
from xml.parsers import expat
def get_elms_for_atr_val(tag,atr,val):
lst=[]
elms = dom.getElementsByTagName(tag)
# ............
return lst
# get all text recursively to the bottom
def get_text(e):
lst=[]
# ............
return lst
def extract_values(dm):
lst = []
l = get_elms_for_atr_val('table','class','most_actives')
# ............
# get_text(e)
# ............
return lst
我是python的新手,這是最好的。有60個HTML頁面下載,我需要做的只是從1頁提取信息,我相信或者至少如果我可以從1頁開始,我可以找出其他人的循環,並提取該信息以便使用在MYsql中
任何幫助讓我開始感謝!
事情是不是用我使用bash腳本,我不得不創建一個下載頁面,並調用Python代碼下載網頁的網站。這些頁面被標記爲這樣UsaToday-2013-05-16-00.html - UsaToday-2013-05-16-59.html – user2340513 2013-05-05 21:56:51