我想製作一個程序,它將檢索一些URL信息。 例如我給下面的網址,從 librarything從url中檢索信息
我怎樣才能檢索到所有下方的「標籤」選項卡中的話,像
黑圖書館幻想Thanquol & Boneripper Thanquol和骨開膛手戰錘?
我正在考慮使用java,並設計一個數據挖掘封裝,但我不知道如何開始。任何人都可以給我一些建議嗎?
編輯: 你給了我很好的幫助,但我想問別的。 對於每個標籤,我們可以看到每個標籤被使用了多少次,當我們按下「數字」按鈕時。我怎樣才能找回這個號碼呢?
如果您要刪除HTML,我建議使用Python或Perl。當我編寫類似於您的示例的程序時,我對Python有很好的體驗,但目前無法真正分享任何內容。有一個特別爲[在Python中解析HTML]而製作的庫(http://docs.python.org/library/htmlparser.html),您也可以查看[regex](http://docs.python.org/ library/re.html)和[urllib](http://docs.python.org/library/urllib.html)。 – Griffin
@Griffin:這似乎是一個基於DOM的解析器,只會導致醜陋的樣板代碼。此外,使用正則表達式來解析HTML是普通[瘋狂](http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html)。 – BalusC
@BalusC我自己並沒有使用HTML解析器,使用正則表達式後,我被重定向到Freenode上Python通道上的庫。對此,似乎有不同的看法,有些人說沒關係,有些人說這不好。感謝您的鏈接,我會檢查出來。 – Griffin