我經常閱讀音樂網站,它有一個部分,用戶可以發佈自己的虛構音樂相關故事。有一個91部分系列(寫在一段時間,部分上傳),總是遵循以下約定: http://www.ultimate-guitar.com/columns/fiction/riot_band_blues_part_#.html。Python HTML - 通過屬性獲取元素
我希望能夠從每個部分獲得格式化的文本並將其放入一個html文件中。
方便地,有一個打印版本的鏈接,正確格式爲我的目的。我所要做的就是編寫一個腳本來下載所有的部分,然後將它們轉儲到文件中。不難。
不幸的是,印刷版的網址爲: www.ultimate-guitar.com/print.php?what=article & ID = 95932
知道什麼文章對應的唯一方法是什麼ID字段是查看原始文章中某個輸入標籤的值屬性。
我想要做的是這樣的:
Go to each page, incrementng through the varying numbers.
Find the <input> tag with attribute 'name="rowid"' and get the number in it's 'value=' attribute.
Go to www.ultimate-guitar.com/print.php?what=article&id=<value>.
Append everything (minus <html><head> and <body> to a html file.
Rinse and repeat.
這可能嗎? python是正確的語言嗎?另外,我應該使用什麼dom/html/xml庫?
感謝您的任何幫助。
這將被視爲跨域,並且不適用於瀏覽器安全目的 – Vigrond 2012-02-26 03:51:59
正確。它將作爲一個修改一點點的油門猴腳本。 – beerbajay 2012-02-26 05:04:34