2014-02-19 35 views
0

我想從某個網頁中提取事件信息。但是我只獲得一小部分內容而不是整個內容。只有當我點擊「閱讀更多」鏈接或點擊該特定鏈接時,我才能獲得整個數據。所以我注意到,url中的id只是改變了,但我不知道如何從url中提取id。如果我指定一個地方作爲i/p並在程序中傳遞它的id,那麼它會更容易。我如何能夠訪問該ID?查找特定頁面的ID

+0

所以基本上你想解析url來獲取查詢參數,對不對?如何使用java中的'URL'類的'getQuery'方法? – Harry

+0

但它只能幫助訪問一個網頁的url詳細信息。我應該如何訪問每個子鏈接 – lulu

+0

不會讓jsoup允許您解析html以獲取頁面中的所有鏈接嗎?你能否詳細說明你想要做的更詳細的事情,或許有一個例子? – Harry

回答

0

要獲得每個事件的完整詳細信息,您必須解析this鏈接才能獲取每個事件。從每個這樣的節點,您需要找到類more的鏈接,然後按照該鏈接。在您獲得的新頁面中,您需要解析html以獲取活動詳細信息文本。

(您可以通過查看網頁的HTML或使用您的瀏覽器Web檢查得到這些類名稱等)的基本邏輯將是這樣的:

root = fetch page with url given above 
L = list of nodes with class newsbrdr on root 
for each node N in L: 
     a_node = child of N with class 'more' 
     p = fetch page at a_node's href 
     extract the paragraph text from element on p with class 'newsdesc'