2011-03-16 92 views
3

我不確定我應該爲此使用哪個模塊。 我有> 100個文件需要提交到以下網頁並檢索結果。自動發送和接收來自HTML頁面的數據

http://bip.weizmann.ac.il/oca-bin/lpccsu

這將是有益的,如果我能自動以某種方式將文件發送到

'<'input type="file" name="filename" size='30''>' 

變量的過程,然後接收返回的HTML,以便它可以使用正則表達式來處理。

感謝

編輯看到一個示例輸出,設置單選按鈕來CSU,並在「PDB項」文本框中輸入1eo8

回答

2

@Anake這裏有3個Python的包是用於檢索和分析提供了一個解決方案:

從他們的網站:

美麗的湯解析什麼,你給它,而d爲你遍歷樹遍歷的東西。你可以告訴它「查找所有鏈接」,或者「查找外部鏈接類的所有鏈接」,或者「查找所有與urls匹配的鏈接」foo.com「,或者」查找帶有粗體文本的表格標題,然後給出我的文字。」在Python 1

有狀態的綱領性網頁瀏覽,安迪·萊斯特的Perl模塊,之後2

Scrapy是一個快速的高層次的屏幕抓取和Web爬行框架,用來抓取網站和提取結構化數據它可以用於廣泛的目的,從數據挖掘到監視和自動化測試。3

2

有幾個方法可以做到這一點:

1 )Perl和LWP

use LWP::UserAgent; 
my $ua = new LWP::UserAgent; 

my $response 
= $ua->post('http://bip.weizmann.ac.il/oca-bin/lpccsu?9955', 
{ param1 => 'value1', 
param2 => 'value2', 
}); 

my $content = $response->content; 
// your regular expression code 

2)AutoHotkey的,其具有正則表達式和由該處理POST請求用戶寫入一個庫,請參閱http://www.autohotkey.com/forum/topic33506.html

3)編寫使用wget的--post數據和--post文件,管道它的一系列文件的批處理文件,並與您的favortite的腳本語言讀取輸出 參考:http://www.gnu.org/software/wget/manual/html_node/HTTP-Options.html

希望幫助

+0

這是perl,不是python。 – geoffspear 2011-03-16 18:01:32

+0

謝謝。不是我正在尋找的東西,但是LWP的建議讓我看到了似乎與python等價的urllib。 – Anake 2011-03-16 19:22:49

+0

啊......對不起,我是新來的,沒有看到python標籤:) – addfasdf 2011-03-16 20:38:52

相關問題