從網頁上的單詞列表生成純文本文件

我試圖生成一個純文本文件，其中包含網頁上的單詞列表。問題是該列表分爲多個頁面。從網頁上的單詞列表生成純文本文件

http://www.whonamedit.com/eponyms/A/?start=50&maxrows=25

這就是我的意思。就像字母A一樣，我需要所有13頁的單詞，而且我還需要每個字母的字母。

我在想也許修改webcrawler來完成這個任務，那會是最簡單的方法嗎？

我更喜歡Java，但Python是好的。

對不起，如果答案是顯而易見的，但任何在正確的方向推動將非常感謝！

來源

2011-06-01 wynnch

假設這是專門爲whonamedit網站，你可以做到以下幾點：

List<String>getWordsOnPage(String url) { 
    // read words within <ul class="result-list"> element. 
} 

void getAllWords() { 
    List<String> all = new ArrayList<String>(); 
    for (char letter = 'A'; letter <= 'Z'; ++letter) { 
    for (int start = 0; true; start += 25) { 
     List<String> page = getWordsOnPage("http://www.whonamedit.com/eponyms/" + letter + "/?start=" + start + "&maxrows=25"); 
     if (page.isEmpty()) { 
     break; 
     } 
     all.addAll(page); 
    } 
    } 
}

來源

2011-06-01 21:05:34

我結束了使用此，非常感謝！ – wynnch 2011-06-02 22:04:48

我不確定幫助別人刮版權的數據是一件「好事」。 – 2011-06-02 23:04:34

@Rob - 嘆了口氣。我甚至都沒有想過這個。我將來會更加小心。 – 2011-06-03 03:40:52

我用HtmlUnit寫蜘蛛

來源

2011-06-01 20:53:44

從網頁上的單詞列表生成純文本文件

回答

相關問題