我仍然在學習圍繞Python的方式,所以我希望有人可以幫助我通過並避免一些手動步驟來思考此問題。Python建議:編譯包含關鍵字但只包含唯一有效鏈接的網址列表
我需要編譯/創建表單
Institution, LinkToSpecificWebPage
其中鏈路包括具體工作(這個說法可以說「存儲」)的列表
我所面臨的問題是,每個機構可以使用不同的表格或結構到我需要的網頁的網址(有些使用store.institution.tld,其他Institution.tld/store 也取決於該機構使用的網絡平臺可能是完整的網址或它可能是相對鏈接/店鋪
我已經使用BS4返回所有包含「store」的鏈接並將它們打印出來。
我的問題是我如何建立一個列表,以便每個機構列出併爲每個機構有一個完整的URL到他們的商店
是否有一個更優雅的方式比if語句和試驗HTTP或www字符串?
鏈接樣品中發現 代碼輸出機構名稱,機構主頁(無論是從較早的處理,然後從各網站首頁包含我感興趣的文字鏈接(S)。 我已經刪除一些重複的,但你可以像有時那麼它可能有一個很好形成完整的鏈接返回相同的鏈接出現在頁面上多次,但它不一定是第一個
InstName,HomePage.url,link.get('href')
Marino Institute http://www.mie.ie/ /Library.aspx
TCD http://www.tcd.ie/ /Library/
DIT http://www.dit.ie/ http://dit.ie/library/
IT Tallaght http://www.it-tallaght.ie/ libraryservice3
LYIT http://www.lyit.ie/#!prettyPhoto http://library1.lyit.ie/
DCU http://www.dcu.ie/ /library/index.shtml
NUIG http://www.nuigalway.ie/ //www.library.nuigalway.ie/
你可以添加你刮的頁面的一個片段,顯示了一些機構和他們聯繫的? – sowa