2013-10-17 31 views
-2

我新的網頁抓取和我的極限是能夠湊一個網頁的標題在IMDB使用選擇的Web報廢的Jsoup

我使用這個此刻:

String contentText = doc.select("title").first().text();

其產生的字符串:Thor: The Dark World (2013) - IMDb

如果有人可以幫助我,我想拿到冠軍,並在今年作爲單獨的字符串:

雷神:黑暗世界」 「」

提前感謝!

+0

粗略瀏覽頁面的HTML源代碼清楚地表明,可以通過JSOUP庫輕鬆提取所需的信息。 –

回答

0

好吧,如果你看一下源出於此頁面,你會看到下面的文件中進一步下跌:

<h1 class="header"> 
<span class="itemprop" itemprop="name">Thor: The Dark World</span> 
<span class="nobr">(<a href="/year/2013/?ref_=tt_ov_inf" >2013</a>)</span>  
</h1> 

所以它似乎可以得到沒有任何進一步的黑客所需要的文本。

0
String docTitle = doc.select("title").first().text(); 
String movieName = docTitle.substring(0,docTitle.indexOf("(")); 
int movieReleaseDate = Integer.parseInt(docTitle.substring(docTitle.indexOf("(")+1, 
              docTitle.indexOf(")")));