2013-08-31 78 views
3

我想從下面的網站下載所有星期日填字遊戲。我需要學什麼python庫來刮這個網站?

http://epaper.timesofindia.com/Default/Client.asp?skin=pastissues2&enter=LowLevel

我可以手動搜索「星期日填字遊戲」,並得到所有我需要的結果。但結果全部在javascript彈出窗口中打開。

http://epaper.timesofindia.com/Default/Scripting/SearchView.asp?skin=pastissues2&AppName=2&sPublication=TOIM&y=11&Content=ALL&sQuery=SUNDAY+CROSSWORD&sScope=P&x=13&ContentType=on&sSorting=IssueDateID%2Casc&sLanguage=en&Offset=1

什麼Python庫做我需要學習/使用來處理此類問題嗎?

我知道urllib的基本。這可以用於這個特定的目的嗎?

我是一個相對較新的程序員,不太瞭解網絡技術。所以任何有關讀取資源的建議都會有所幫助。

+1

JS彈出窗口不上的網站打開,可能就需要進行身份驗證? – alecxe

+0

我很想看看你在這個問題上得到了什麼答案。對於使用html內容的簡單網絡爬蟲/刮板,我在這裏有一些代碼:http://pastebin.com/q1NEdLJ6。但是,我不認爲這將用於JavaScript彈出窗口。 – ChrisProsser

+0

@alecxe不需要驗證。這是印度日報電子報的檔案頁面,稱爲印度時報。因此,我假設,我有權利榨取它。但是,不需要認證來訪問內容。 –

回答

相關問題