我對MechanicalSoup和webscraping完全綠色。 我一直在解析一個html時間表,並將其製作成icalendar(ics)文件,以便在移動設備上獲取它。 (我已經成功完成了,耶)。MechanicalSoup棘手的HTML表格
現在,我選擇了我的時間表後,我下載了時間表網站的html。現在我需要使用Python來實際導航到時間表。
這裏是我到目前爲止的代碼(我堅持,因爲HTML是SOOO亂,我不知道如何做到這一點,併爲MechanicalSoup的文件是不是還大):
import argparse
import mechanicalsoup
from getpass import getpass
browser = mechanicalsoup.StatefulBrowser(
soup_config={'features': 'lxml'},
raise_on_404=True,
user_agent='MyBot/0.1: mysite.example.com/bot_info',
)
browser.open("http://keaplan.kea.dk/sws/prodE2017/default.aspx")
browser.select_form(WHAT TO SELECT :D)
見這裏的HTML :(http://keaplan.kea.dk/sws/prodE2017/default.aspx 我要做到以下幾點:。從提交的重定向
td class=「FilterPanel」 #go to the table containing this td
div id = pFilter #set value to BYG
div id = pObject #set value to BAKINT-2l
submit (which will redirect to the timetable i need)
和下載HTML
幫助深情地感謝!
「爲MechanicalSoup文檔沒有那麼大呢。」:它當你發佈你的問題時是非常真實的。現在還不如此:MechanicalSoup的文檔還沒有那麼大): –