2014-02-26 50 views
-1

首先讓我說偏好的語言是Java,但任何語言都可以接受答案,因爲我知道大多數語言。抓取答案站點的信息

問:假設我有一個鏈接,http://ca.answers.yahoo.com/question/index?qid=20140218053709AAM0WfI(本例爲隨機鏈接)。是否有任何可能的方式來獲得問題的標題並將其存儲在一個字符串中,然後獲得他所鍵入的問題描述(這裏稱爲本節)並將其存儲在單獨的字符串中?我知道如何從網站抓取字符串,但我碰到的問題是我一直在抓住答案和問題。

其他詳細信息。

  1. 我不會提前知道具體的時間雅虎知識堂,所以代碼 需要能夠與所有的基本問題(也就是那些沒有 圖片或其他併發症)的工作。
  2. 代碼需要與所有問題/答案論壇kinda網站,而不僅僅是雅虎。

不要求任何人編寫完整的代碼或任何東西,我知道這不是網站的工作原理。只是有任何可以輕鬆獲取這些信息的特定功能嗎?

+0

你可以尋找到一個庫,如[JSoup(http://jsoup.org/)。它應該關注抓取站點的大部分細節,並使您能夠專注於提取所需的信息。 – Henrik

+0

你是否嘗試過美麗的湯,正如我在我的回答中所提到的? – user3213851

回答