2016-02-04 109 views
0

好的,我試圖獲取數據標題和href並將它們分配給java中的變量。從html文件中獲取信息

<tr class="pl-video yt-uix-tile " data-video-id="MBBWVgE0ewk" data-set-video-id="" data-title="Windows Command Line Tutorial - 1 - Introduction to the Command Prompt"><td class="pl-video-handle "></td><td class="pl-video-index"></td><td class="pl-video-thumbnail"><span class="pl-video-thumb ux-thumb-wrap contains-addto"><a href="/watch?v=MBBWVgE0ewk&amp;index=1&amp;list=PL6gx4Cwl9DGDV6SnbINlVUd0o2xT4JbMu" 
+0

你說你想做點什麼。向我們展示你曾經嘗試過的做法,但沒有成功。 –

+0

@TheHeadRush好的,說實話,我不知道這件事。我試着查找關於這個的教程和文檔,但沒有發現任何看起來像我想要的東西。我寧願學習如何做,然後只是有人爲我做,但我不認爲任何人會回答,如果我只是要求這本書或文件。 –

+0

你想要的是一個DOM解析器。 Java在javax.xml.parsers包中爲此提供了一組工具。下面推薦的Jsoup更友好一點,但是消耗更多的內存,至少在我的經驗中。 –

回答

1

如果你不介意的話,包括依賴,對於這種東西叫做jsoup一個好的圖書館。

String html = ... 
Document doc = Jsoup.parse(html); 

Element tr = doc.select("tr").first(); 
Element link = tr.select("a").first(); 

String dataTitle = tr.attr("data-title"); 
String href = link.attr("href"); 
+0

這個工作到底如何,以及如果有超過1個的href或數據標題? –

+0

看看***解決方案***部分http://jsoup.org/cookbook/extracting-data/attributes-text-html –