2011-06-01 40 views
0

我試圖生成一個純文本文件,其中包含網頁上的單詞列表。問題是該列表分爲多個頁面。從網頁上的單詞列表生成純文本文件

http://www.whonamedit.com/eponyms/A/?start=50&maxrows=25

這就是我的意思。就像字母A一樣,我需要所有13頁的單詞,而且我還需要每個字母的字母。

我在想也許修改webcrawler來完成這個任務,那會是最簡單的方法嗎?

我更喜歡Java,但Python是好的。

對不起,如果答案是顯而易見的,但任何在正確的方向推動將非常感謝!

回答

0

假設這是專門爲whonamedit網站,你可以做到以下幾點:

List<String>getWordsOnPage(String url) { 
    // read words within <ul class="result-list"> element. 
} 

void getAllWords() { 
    List<String> all = new ArrayList<String>(); 
    for (char letter = 'A'; letter <= 'Z'; ++letter) { 
    for (int start = 0; true; start += 25) { 
     List<String> page = getWordsOnPage("http://www.whonamedit.com/eponyms/" + letter + "/?start=" + start + "&maxrows=25"); 
     if (page.isEmpty()) { 
     break; 
     } 
     all.addAll(page); 
    } 
    } 
} 
+0

我結束了使用此,非常感謝! – wynnch 2011-06-02 22:04:48

+1

我不確定幫助別人刮版權的數據是一件「好事」。 – 2011-06-02 23:04:34

+0

@Rob - 嘆了口氣。我甚至都沒有想過這個。我將來會更加小心。 – 2011-06-03 03:40:52

相關問題