自動發送和接收來自HTML頁面的數據

我不確定我應該爲此使用哪個模塊。我有> 100個文件需要提交到以下網頁並檢索結果。自動發送和接收來自HTML頁面的數據

http://bip.weizmann.ac.il/oca-bin/lpccsu

這將是有益的，如果我能自動以某種方式將文件發送到

'<'input type="file" name="filename" size='30''>'

變量的過程，然後接收返回的HTML，以便它可以使用正則表達式來處理。

感謝

編輯看到一個示例輸出，設置單選按鈕來CSU，並在「PDB項」文本框中輸入1eo8

來源

2011-03-16 Anake

@Anake這裏有3個Python的包是用於檢索和分析提供了一個解決方案：

從他們的網站：

美麗的湯解析什麼，你給它，而d爲你遍歷樹遍歷的東西。你可以告訴它「查找所有鏈接」，或者「查找外部鏈接類的所有鏈接」，或者「查找所有與urls匹配的鏈接」foo.com「，或者」查找帶有粗體文本的表格標題，然後給出我的文字。」在Python 1

有狀態的綱領性網頁瀏覽，安迪·萊斯特的Perl模塊，之後2

Scrapy是一個快速的高層次的屏幕抓取和Web爬行框架，用來抓取網站和提取結構化數據它可以用於廣泛的目的，從數據挖掘到監視和自動化測試。3

來源

2011-03-16 20:38:50 MWR

有幾個方法可以做到這一點：

1 ）Perl和LWP

use LWP::UserAgent; 
my $ua = new LWP::UserAgent; 

my $response 
= $ua->post('http://bip.weizmann.ac.il/oca-bin/lpccsu?9955', 
{ param1 => 'value1', 
param2 => 'value2', 
}); 

my $content = $response->content; 
// your regular expression code

2）AutoHotkey的，其具有正則表達式和由該處理POST請求用戶寫入一個庫，請參閱http://www.autohotkey.com/forum/topic33506.html

3）編寫使用wget的--post數據和--post文件，管道它的一系列文件的批處理文件，並與您的favortite的腳本語言讀取輸出參考：http://www.gnu.org/software/wget/manual/html_node/HTTP-Options.html

希望幫助

來源

2011-03-16 17:58:04 addfasdf

這是perl，不是python。 – geoffspear 2011-03-16 18:01:32

謝謝。不是我正在尋找的東西，但是LWP的建議讓我看到了似乎與python等價的urllib。 – Anake 2011-03-16 19:22:49

啊......對不起，我是新來的，沒有看到python標籤:) – addfasdf 2011-03-16 20:38:52

自動發送和接收來自HTML頁面的數據

回答

相關問題