2012-12-12 34 views
1

我需要下載在線印地文語言詞典以供離線使用。詞典中的每個詞都有一個php生成的頁面。這些頁面的URL如下: http://pustak.org/home.php?mean=X,其中X代表一個數字。以編程方式下載php生成的網頁

因此,字典中的第一個單詞可以通過http://pustak.org/home.php?mean=1找到,第二個單詞是http://pustak.org/home.php?mean=2等等。

如何以編程方式下載所有這些頁面並將它們另存爲單獨的html文件? PS:如果你想知道,我這樣做是因爲我需要一個印地語詞典在旅行時指向我的iPod Touch上的離線(因爲Touch沒有蜂窩數據)。我已經嘗試了一大堆印地文字典應用程序,他們都沒有接近這個免費的在線字典的質量和定義數量。所以我的計劃是下載整個HTML文件,將它們全部存儲在支持全文搜索的iOS文件系統應用程序中,並且我有我自己的離線字典...

幫助讚賞!

+0

cURL和'file_put_contents'將成爲你的朋友。 – moonwave99

+0

平均值的最大值是多少? – Dale

+0

或者,也許你可以使用外部工具。例如http://www.httrack.com。 – sprain

回答

0

您可以file_get_contents嘗試:

$max = 100000 //total num of words to get 

for($cont=1; $cont<$max; $cont++){ 
    $sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont'); 

    if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){ 
     echo "error with word number".$cont; 
     die(); 
    } 
} 
1

稍微不同的方式,我會親自使用HTTrack

從主頁:

的HTTrack是一個免費的(GPL,自由報/免費軟件)和易於使用的離線瀏覽工具 。

它允許您從Internet上下載萬維網站點到本地目錄 ,遞歸地構建所有目錄,從服務器獲取HTML, 圖像和其他文件到您的計算機。 HTTrack 排列原始網站的相關鏈接結構。只需在瀏覽器中打開「鏡像」網站的 頁面,就可以瀏覽從鏈接到鏈接的 網站,就像在線查看網站一樣。 HTTrack可以 也更新現有的鏡像站點,並恢復中斷 下載。 HTTrack是完全可配置的,並且具有集成的幫助系統 。

根據該網站,它支持Windows 2000/XP/Vista/Seven和幾種Linux。

我假設你可以將下載的文件導入到你提到的這個iOS應用程序中。