2017-05-31 120 views
1

我想從這個網站標題:http://feeds.foxnews.com/foxnews/latest如何使用Jaunt庫從網站上抓取數據?

這樣的例子:

<title><![CDATA[SUCCESSFUL INTERCEPT Pentagon confirms it shot down ICBM-type target]]></title> 

,它會顯示文字是這樣的:

「成功攔截五角大樓證實其擊落ICBM-類型目標 美國進行成功的導彈攔截試驗,五角大樓說「

這是我的代碼。我用過jaunt庫。

我不知道爲什麼它顯示的文字只有「foxnew.com」

import com.jaunt.JauntException; 
import com.jaunt.UserAgent; 

public class p8_1 
{ 

    public static void main(String[] args) 
    { 
     try 
     { 
      UserAgent userAgent = new UserAgent(); 
      userAgent.visit("http://feeds.foxnews.com/foxnews/latest"); 
      String title = userAgent.doc.findFirst 
("<title><![CDATA[SUCCESSFUL INTERCEPT Pentagon confirms it shot down ICBM-type target]]></title>").getText(); 
       System.out.println("\n " + title); 


     } catch (JauntException e) 
     { 
      System.err.println(e); 
     } 

    } 

} 
+0

你可以嘗試字符串title = userAgent.doc.findFirst( 「」).getText()和共享輸出? – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">我試過了。輸出是相同的顯示文字只有「foxnew.com」 謝謝你:) – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/8057954/">Puppet325</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">回答</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> <i class="fa fa-check fa-2x"></i> </div> <div class="post-offset"> <div class="answer fmt"> <p>搜索元素類型,而不是價值。</p> <p>請嘗試以下方法得到每個項目的標題文本在飼料中:</p> <pre><code class="prettyprint-override">public static void main(String[] args) { try { UserAgent userAgent = new UserAgent(); userAgent.visit("http://feeds.foxnews.com/foxnews/latest"); Elements items = userAgent.doc.findEach("<item>"); Elements titles = items.findEach("<title>"); for (Element title : titles) { String titleText = title.getComment(0).getText(); System.out.println(titleText); } } catch (JauntException e) { System.err.println(e); } } </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/44277500">來源</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2017-05-31 06:44:45</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> <!-- comments --> <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">非常感謝你:) – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/8057954/">Puppet325</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.uwenku.com/question/p-kvbactan-ew.html" target="_blank" title="如何從網站上抓取數據"> 如何從網站上抓取數據 </a> </li> <li> 2. <a href="http://hk.uwenku.com/question/p-oaythtzv-sn.html" target="_blank" title="如何使用Python 2從網站上抓取數據?"> 如何使用Python 2從網站上抓取數據? </a> </li> <li> 3. <a href="http://hk.uwenku.com/question/p-gvvazmbj-rp.html" target="_blank" title="如何從使用Java(Android)的網站上抓取數據?"> 如何從使用Java(Android)的網站上抓取數據? </a> </li> <li> 4. <a href="http://hk.uwenku.com/question/p-mjkvzqgp-wp.html" target="_blank" title="從網站抓取數據"> 從網站抓取數據 </a> </li> <li> 5. <a href="http://hk.uwenku.com/question/p-yywmvfap-ty.html" target="_blank" title="從網站抓取數據"> 從網站抓取數據 </a> </li> <li> 6. <a href="http://hk.uwenku.com/question/p-klqwzvbz-dk.html" target="_blank" title="從網站上抓取C#數據"> 從網站上抓取C#數據 </a> </li> <li> 7. <a href="http://hk.uwenku.com/question/p-fdubzmiu-cb.html" target="_blank" title="Php從網站上抓取數據"> Php從網站上抓取數據 </a> </li> <li> 8. <a href="http://hk.uwenku.com/question/p-dasfnhhg-kd.html" target="_blank" title="如何從網頁上抓取數據?"> 如何從網頁上抓取數據? </a> </li> <li> 9. <a href="http://hk.uwenku.com/question/p-kgjdnjry-qc.html" target="_blank" title="如何從網站上抓取信息?"> 如何從網站上抓取信息? </a> </li> <li> 10. <a href="http://hk.uwenku.com/question/p-xnbcieuj-bgb.html" target="_blank" title="使用IMPORTXML從網站上抓取數據"> 使用IMPORTXML從網站上抓取數據 </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://hk.uwenku.com/question/p-hyherycq-yv.html" target="_blank" title="如何從受Shibboleth保護的網站上抓取數據?"> 如何從受Shibboleth保護的網站上抓取數據? </a> </li> <li> 12. <a href="http://hk.uwenku.com/question/p-ngjwcxrb-bcs.html" target="_blank" title="如何在數據庫中添加抓取的網站數據?"> 如何在數據庫中添加抓取的網站數據? </a> </li> <li> 13. <a href="http://hk.uwenku.com/question/p-gtgjgbqo-et.html" target="_blank" title="屏幕從網站抓取數據"> 屏幕從網站抓取數據 </a> </li> <li> 14. <a href="http://hk.uwenku.com/question/p-nfleferd-gd.html" target="_blank" title="從網站抓取XML文件數據"> 從網站抓取XML文件數據 </a> </li> <li> 15. <a href="http://hk.uwenku.com/question/p-ajjpciqa-pr.html" target="_blank" title="在Google App Engine上運行Jaunt(網頁抓取工具):Java"> 在Google App Engine上運行Jaunt(網頁抓取工具):Java </a> </li> <li> 16. <a href="http://hk.uwenku.com/question/p-zxelcydp-gx.html" target="_blank" title="如何使用BeauitfulSoup從多個網頁上抓取數據?"> 如何使用BeauitfulSoup從多個網頁上抓取數據? </a> </li> <li> 17. <a href="http://hk.uwenku.com/question/p-hyptealp-bes.html" target="_blank" title="我如何從Python網站抓取網站上的pdf鏈接"> 我如何從Python網站抓取網站上的pdf鏈接 </a> </li> <li> 18. <a href="http://hk.uwenku.com/question/p-kqilscbx-tc.html" target="_blank" title="安裝抓取,網站抓取庫"> 安裝抓取,網站抓取庫 </a> </li> <li> 19. <a href="http://hk.uwenku.com/question/p-pttfcqzf-vn.html" target="_blank" title="如何從抓取工具獲取數據到我的網站?"> 如何從抓取工具獲取數據到我的網站? </a> </li> <li> 20. <a href="http://hk.uwenku.com/question/p-nmcqzmlm-zs.html" target="_blank" title="如何使用scrapy抓取網站?"> 如何使用scrapy抓取網站? </a> </li> <li> 21. <a href="http://hk.uwenku.com/question/p-wjmwmjia-bes.html" target="_blank" title="使用xcode從網站抓取文本"> 使用xcode從網站抓取文本 </a> </li> <li> 22. <a href="http://hk.uwenku.com/question/p-bxovhjha-gc.html" target="_blank" title="抓取網站使用PHP"> 抓取網站使用PHP </a> </li> <li> 23. <a href="http://hk.uwenku.com/question/p-kpctccms-cp.html" target="_blank" title="使用importXML和腳本存儲從網站抓取的數據"> 使用importXML和腳本存儲從網站抓取的數據 </a> </li> <li> 24. <a href="http://hk.uwenku.com/question/p-bxareagn-vd.html" target="_blank" title="如何存儲從網站抓取的數據"> 如何存儲從網站抓取的數據 </a> </li> <li> 25. <a href="http://hk.uwenku.com/question/p-vxfpojjq-bhg.html" target="_blank" title="如何抓取網站?"> 如何抓取網站? </a> </li> <li> 26. <a href="http://hk.uwenku.com/question/p-maanwpda-bbw.html" target="_blank" title="從網站上抓取數據的最佳方式是什麼?"> 從網站上抓取數據的最佳方式是什麼? </a> </li> <li> 27. <a href="http://hk.uwenku.com/question/p-zpgvqvgp-ky.html" target="_blank" title="PHP:連接中止,同時從網站上抓取數據"> PHP:連接中止,同時從網站上抓取數據 </a> </li> <li> 28. <a href="http://hk.uwenku.com/question/p-wwiojibe-bca.html" target="_blank" title="從scrapy網站上抓取數據並輸出到javascript"> 從scrapy網站上抓取數據並輸出到javascript </a> </li> <li> 29. <a href="http://hk.uwenku.com/question/p-qbuefcnc-baz.html" target="_blank" title="從網站抓取文本"> 從網站抓取文本 </a> </li> <li> 30. <a href="http://hk.uwenku.com/question/p-hzcbmtzb-wp.html" target="_blank" title="從網站抓取圖片"> 從網站抓取圖片 </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048261"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-tvgmrvpy-hb.html" target="_blank" title="Spyder 3.1.4 - 操作系統升級後無法配置Spyder"> Spyder 3.1.4 - 操作系統升級後無法配置Spyder </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-nrnjrlra-kr.html" target="_blank" title="能從應用程序的BeginRequest在第一次請求使用RewritePath"> 能從應用程序的BeginRequest在第一次請求使用RewritePath </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-xyxztndm-hw.html" target="_blank" title="如何使用帶空格的HTML Git Diff?"> 如何使用帶空格的HTML Git Diff? </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-fsgdmwpl-eb.html" target="_blank" title="如何使用setActiveItem進行卡片佈局以基於radiobuttton選擇顯示面板?"> 如何使用setActiveItem進行卡片佈局以基於radiobuttton選擇顯示面板? </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-zcmykspd-dh.html" target="_blank" title="爲什麼如果(a!= 65)沒有執行?"> 爲什麼如果(a!= 65)沒有執行? </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-vdmsgred-ex.html" target="_blank" title="字符串中最後2個括號之間的所有大寫字母的正則表達式"> 字符串中最後2個括號之間的所有大寫字母的正則表達式 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-fricngen-z.html" target="_blank" title="由不同的解決方案調用的一個共享項目中的JS文件"> 由不同的解決方案調用的一個共享項目中的JS文件 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-aiwiznwb-d.html" target="_blank" title="Java 8 DateTimeFormatterBuilder()。appendOptional不工作"> Java 8 DateTimeFormatterBuilder()。appendOptional不工作 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-eoqvbwzw-cc.html" target="_blank" title="傳數據從小孩到在母體陣營節目類型錯誤"> 傳數據從小孩到在母體陣營節目類型錯誤 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-pjpbavcz-bmd.html" target="_blank" title="谷歌附近的通知分析"> 谷歌附近的通知分析 </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-kvbactan-ew.html" target="_blank" title="如何從網站上抓取數據"> 如何從網站上抓取數據 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-oaythtzv-sn.html" target="_blank" title="如何使用Python 2從網站上抓取數據?"> 如何使用Python 2從網站上抓取數據? </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-gvvazmbj-rp.html" target="_blank" title="如何從使用Java(Android)的網站上抓取數據?"> 如何從使用Java(Android)的網站上抓取數據? </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-mjkvzqgp-wp.html" target="_blank" title="從網站抓取數據"> 從網站抓取數據 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-yywmvfap-ty.html" target="_blank" title="從網站抓取數據"> 從網站抓取數據 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-klqwzvbz-dk.html" target="_blank" title="從網站上抓取C#數據"> 從網站上抓取C#數據 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-fdubzmiu-cb.html" target="_blank" title="Php從網站上抓取數據"> Php從網站上抓取數據 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-dasfnhhg-kd.html" target="_blank" title="如何從網頁上抓取數據?"> 如何從網頁上抓取數據? </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-kgjdnjry-qc.html" target="_blank" title="如何從網站上抓取信息?"> 如何從網站上抓取信息? </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-xnbcieuj-bgb.html" target="_blank" title="使用IMPORTXML從網站上抓取數據"> 使用IMPORTXML從網站上抓取數據 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.uwenku.com/contact">聯系我們</a></li> <li>© 2020 HK.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>