我新的網頁抓取和我的極限是能夠湊一個網頁的標題在IMDB使用選擇的Web報廢的Jsoup
我使用這個此刻:
String contentText = doc.select("title").first().text();
其產生的字符串:Thor: The Dark World (2013) - IMDb
如果有人可以幫助我,我想拿到冠軍,並在今年作爲單獨的字符串:
「雷神:黑暗世界」 「」
提前感謝!
我新的網頁抓取和我的極限是能夠湊一個網頁的標題在IMDB使用選擇的Web報廢的Jsoup
我使用這個此刻:
String contentText = doc.select("title").first().text();
其產生的字符串:Thor: The Dark World (2013) - IMDb
如果有人可以幫助我,我想拿到冠軍,並在今年作爲單獨的字符串:
「雷神:黑暗世界」 「」
提前感謝!
好吧,如果你看一下源出於此頁面,你會看到下面的文件中進一步下跌:
<h1 class="header">
<span class="itemprop" itemprop="name">Thor: The Dark World</span>
<span class="nobr">(<a href="/year/2013/?ref_=tt_ov_inf" >2013</a>)</span>
</h1>
所以它似乎可以得到沒有任何進一步的黑客所需要的文本。
String docTitle = doc.select("title").first().text();
String movieName = docTitle.substring(0,docTitle.indexOf("("));
int movieReleaseDate = Integer.parseInt(docTitle.substring(docTitle.indexOf("(")+1,
docTitle.indexOf(")")));
粗略瀏覽頁面的HTML源代碼清楚地表明,可以通過JSOUP庫輕鬆提取所需的信息。 –