2017-05-17 189 views
0

我正在製作一個軟件,該軟件應該從提供的url中檢索網頁的標題並嘗試使用JSoup來實現該目標。 的聯繫大多來自YouTube和JSoup完美的作品和他們在一起,但偶爾的輸入會以概率密度函數,像這樣的形式:http://www.ninsheetmusic.org/download/pdf/2066 這時候,我得到以下異常:從pdf中獲取html內容url(jsoup)

org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=application/pdf, URL=http://www.ninsheetmusic.org/download/pdf/2066 
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:689) 
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:628) 
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:260) 
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:249) 
at core.Request.parseTitle(Request.java:54) 
at core.Request.<init>(Request.java:29) 
at core.GrakeBot.parseRequest(GrakeBot.java:161) 
at core.GrakeBot.onMessage(GrakeBot.java:59) 
at org.jibble.pircbot.PircBot.handleLine(PircBot.java:990) 
at org.jibble.pircbot.InputThread.run(InputThread.java:92) 

現在我把它JSoup不處理pdf,但有什麼我可以在這裏做,以避免這種異常,並獲得網頁標題?

這是我現在使用的代碼:

private String parseTitle(String link) 
{ 
    Document doc = null; 
    String title = "Title could not be retrieved"; 

    if (getType() == RequestType.YOUTUBE) 
    { 
     try 
     { 
      doc = Jsoup.connect(getLink()).get(); 
      title = doc.getElementById("eow-title").text(); 
     } catch (IOException e) 
     { 
      e.printStackTrace(); 
     } 
     return title; 
    } 
    else if (getType() == RequestType.SHEET) 
    { 
     try 
     { 
      doc = Jsoup.connect(getLink()).get(); 
      title = doc.getElementsByTag("title").text(); 
     } catch (IOException e) 
     { 
      e.printStackTrace(); 
     } 
     return title; 
    } 
    else 
     return title; 
} 

回答

0

不能使用JSoup這一點。這不是HTML。我查看了源代碼,並且收到的數據看起來像這樣:
%PDF-1.5 %Çì¢ 5 0 obj <</Length 6 0 R/Filter /FlateDecode>> stream xœÍ\]\[³$GqÆö1áë˜à…GœQUf\]ý† Làp8¿¬xÀ+åÐ „1?ÉÿÒy©KöîYítŸÌîÙ¯«ºº.™YyëêßœÜÕÃÉñÿþã嫇÷œO¿üâ!~÷à®Îa©%Qá「?üƒ‡„pŠ Ã5åÓ+E.#£O~ò s5ýñù/~óP®Èÿä‚ýýòÕé? Ç—「Ï×RNü‚:Pk åþTü5」SJpÍpúàÕÃùk—þë!Ôk§þ…áwèÞœ¨·ñÑÃùëRéZJ8=&¹·_ŽW úS}óÒ\[j¾årÙ<í-•‘&3õ"8éóªwïnÀM-\]¡ä=¾ìÚ­béýMô¦èû<üè&rñÙYzQh\]ª¦\¡)ÙÙr…¦<Ù&t›*~>‘«Hq¬Ù78‹cÝ+œÅ›b…£8」h‹Åh‹Å¾$\[Üà,eS¬p{¿)V8Š\]ÞLKƒÂªïZ=bÞäef\[÷£Ï4¸$ÏO1Òo」YŒDG£´üò!æ:Ч)&ªçåžÈ÷D'「£-ƒ×{~ñ÷ú¨Ñ\[y×ôGAö7= ...

您必須使用庫解析它。看完後,它看起來像Apache PDFBox是你想要的。此代碼是從文檔和未經考驗的,但它看起來像你想要做什麼:

PDDocument doc = PDDocument.load("http://www.ninsheetmusic.org/download/pdf/2066"); 
PDDocumentInformation info = doc.getDocumentInformation(); 
String title = info.getTitle(); 

剩下的唯一一件事就是安裝Apache PDFBox的:)

+0

*「它看起來像Apache PDFBox的是你想要的「* - 嚴格來說,Apache PDFBox只是* OP可用於此任務的衆多* PDF庫之一... – mkl

+0

我覺得添加Apache PDFBox對於我的目標並不是最佳選擇。 我可能會說這裏真的很愚蠢,糾正我,如果我錯了: 通過在Firefox中打開上述鏈接並打開頁面檢查器,我發現有一些HTML代碼,實際上有一個標記。 (還有什麼地方會firefox獲取文本顯示頁面標題?) 有什麼辦法用jsoup訪問該html代碼並從那裏檢索標題? – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">@RamzahBeoulve你可以打開一個普通的套接字連接,然後用JSoup解析。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.uwenku.com/question/p-xgxpzcdv-pd.html" target="_blank" title="從url重定向獲取html內容"> 從url重定向獲取html內容 </a> </li> <li> 2. <a href="http://hk.uwenku.com/question/p-wfrexqpv-tg.html" target="_blank" title="從html中獲取內容"> 從html中獲取內容 </a> </li> <li> 3. <a href="http://hk.uwenku.com/question/p-cwtsjdwk-ts.html" target="_blank" title="如何從Jsoup跨度獲取內容"> 如何從Jsoup跨度獲取內容 </a> </li> <li> 4. <a href="http://hk.uwenku.com/question/p-oxewjemi-tx.html" target="_blank" title="Phonegap從PDF文件中獲取內容"> Phonegap從PDF文件中獲取內容 </a> </li> <li> 5. <a href="http://hk.uwenku.com/question/p-ostbezgu-hp.html" target="_blank" title="從html獲取圖標(JSOUP)"> 從html獲取圖標(JSOUP) </a> </li> <li> 6. <a href="http://hk.uwenku.com/question/p-yfikezvt-wo.html" target="_blank" title="從html,JSOUP獲取tabledata"> 從html,JSOUP獲取tabledata </a> </li> <li> 7. <a href="http://hk.uwenku.com/question/p-vpnhrjkf-uh.html" target="_blank" title="無法在java中使用jsoup從html中提取內容?"> 無法在java中使用jsoup從html中提取內容? </a> </li> <li> 8. <a href="http://hk.uwenku.com/question/p-bkqbpyut-bhe.html" target="_blank" title="使用JSoup提取HTML表格內容"> 使用JSoup提取HTML表格內容 </a> </li> <li> 9. <a href="http://hk.uwenku.com/question/p-bdqrpzlj-we.html" target="_blank" title="jsoup從表中獲取的URL TD"> jsoup從表中獲取的URL TD </a> </li> <li> 10. <a href="http://hk.uwenku.com/question/p-ebqzsgyo-bbm.html" target="_blank" title="使用jsoup從表中提取內容"> 使用jsoup從表中提取內容 </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://hk.uwenku.com/question/p-qsybwzgo-bae.html" target="_blank" title="如何獲取URL的HTML內容?"> 如何獲取URL的HTML內容? </a> </li> <li> 12. <a href="http://hk.uwenku.com/question/p-odtaktcl-vw.html" target="_blank" title="我如何從HTML文件中提取正文內容與jsoup"> 我如何從HTML文件中提取正文內容與jsoup </a> </li> <li> 13. <a href="http://hk.uwenku.com/question/p-oqlqcaqt-boe.html" target="_blank" title="獲取URL內容"> 獲取URL內容 </a> </li> <li> 14. <a href="http://hk.uwenku.com/question/p-mvfufwho-ru.html" target="_blank" title="僅從java中的url獲取編碼的html內容"> 僅從java中的url獲取編碼的html內容 </a> </li> <li> 15. <a href="http://hk.uwenku.com/question/p-qfpxbyat-bkb.html" target="_blank" title="如何擺脫jsoup中的html,只提取html表格內容?"> 如何擺脫jsoup中的html,只提取html表格內容? </a> </li> <li> 16. <a href="http://hk.uwenku.com/question/p-eqalwekg-es.html" target="_blank" title="JSOUP從div的同名中獲取div內容"> JSOUP從div的同名中獲取div內容 </a> </li> <li> 17. <a href="http://hk.uwenku.com/question/p-tzxhhnpq-nv.html" target="_blank" title="從LOGSTASH讀取PDF內容"> 從LOGSTASH讀取PDF內容 </a> </li> <li> 18. <a href="http://hk.uwenku.com/question/p-khuwlmyh-bhy.html" target="_blank" title="從外部url的iframe獲取內容"> 從外部url的iframe獲取內容 </a> </li> <li> 19. <a href="http://hk.uwenku.com/question/p-vssrkilg-cv.html" target="_blank" title="從URL獲取頁面內容?"> 從URL獲取頁面內容? </a> </li> <li> 20. <a href="http://hk.uwenku.com/question/p-dycoxxhh-pv.html" target="_blank" title="如何從URL異步獲取內容?"> 如何從URL異步獲取內容? </a> </li> <li> 21. <a href="http://hk.uwenku.com/question/p-yrdexxvq-baa.html" target="_blank" title="從URL獲取頁面內容"> 從URL獲取頁面內容 </a> </li> <li> 22. <a href="http://hk.uwenku.com/question/p-thjhdjlp-dq.html" target="_blank" title="從URL獲取文件內容?"> 從URL獲取文件內容? </a> </li> <li> 23. <a href="http://hk.uwenku.com/question/p-blysxgch-bdv.html" target="_blank" title="PHP - 獲取內容從外部URL"> PHP - 獲取內容從外部URL </a> </li> <li> 24. <a href="http://hk.uwenku.com/question/p-sbmpdpox-px.html" target="_blank" title="從(自己的網站的)URL獲取HTML內容"> 從(自己的網站的)URL獲取HTML內容 </a> </li> <li> 25. <a href="http://hk.uwenku.com/question/p-ugjbxgyj-rn.html" target="_blank" title="從url使用jquery或javascript獲取html內容"> 從url使用jquery或javascript獲取html內容 </a> </li> <li> 26. <a href="http://hk.uwenku.com/question/p-cyolecda-bna.html" target="_blank" title="如何從遠程URL獲取特定的HTML內容?"> 如何從遠程URL獲取特定的HTML內容? </a> </li> <li> 27. <a href="http://hk.uwenku.com/question/p-gdfyfoxx-ew.html" target="_blank" title="使用JSOUP提取內容"> 使用JSOUP提取內容 </a> </li> <li> 28. <a href="http://hk.uwenku.com/question/p-wtybaahd-zw.html" target="_blank" title="獲取Itext中的pdf文件內容"> 獲取Itext中的pdf文件內容 </a> </li> <li> 29. <a href="http://hk.uwenku.com/question/p-grytpbsd-bnn.html" target="_blank" title="從URL中獲取內容並將其放在容器中"> 從URL中獲取內容並將其放在容器中 </a> </li> <li> 30. <a href="http://hk.uwenku.com/question/p-fqwijqyo-ev.html" target="_blank" title="PHP獲取URL內容"> PHP獲取URL內容 </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048261"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-yiaqahpl-vx.html" target="_blank" title="如何對目錄中的單個文件進行相同的更改?"> 如何對目錄中的單個文件進行相同的更改? </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-sptrwqoy-uo.html" target="_blank" title="VB如何限制登錄系統上用來註冊的信息?"> VB如何限制登錄系統上用來註冊的信息? </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-erzjnrpy-uu.html" target="_blank" title="關於應用於CCHESS的算法的困惑"> 關於應用於CCHESS的算法的困惑 </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-pkwqbdaz-tw.html" target="_blank" title="春季"> 春季 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-vtphzeru-ue.html" target="_blank" title="添加touchEvents進行導航"> 添加touchEvents進行導航 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-wjxlkzjz-vh.html" target="_blank" title="如何創建列描述(CD)文件Catboost"> 如何創建列描述(CD)文件Catboost </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-zqtjksso-vq.html" target="_blank" title="如何打印二叉樹?"> 如何打印二叉樹? </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-ufavsjen-va.html" target="_blank" title="從數列與百分比的餅圖創建爲標籤"> 從數列與百分比的餅圖創建爲標籤 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-czfslifo-ss.html" target="_blank" title="爲什麼jQuery懸停效果不起作用?"> 爲什麼jQuery懸停效果不起作用? </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-ahvkxzum-tb.html" target="_blank" title="get-webbinding-like IIS:\ Sites \ $變量"> get-webbinding-like IIS:\ Sites \ $變量 </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-xgxpzcdv-pd.html" target="_blank" title="從url重定向獲取html內容"> 從url重定向獲取html內容 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-wfrexqpv-tg.html" target="_blank" title="從html中獲取內容"> 從html中獲取內容 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-cwtsjdwk-ts.html" target="_blank" title="如何從Jsoup跨度獲取內容"> 如何從Jsoup跨度獲取內容 </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-oxewjemi-tx.html" target="_blank" title="Phonegap從PDF文件中獲取內容"> Phonegap從PDF文件中獲取內容 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-ostbezgu-hp.html" target="_blank" title="從html獲取圖標(JSOUP)"> 從html獲取圖標(JSOUP) </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-yfikezvt-wo.html" target="_blank" title="從html,JSOUP獲取tabledata"> 從html,JSOUP獲取tabledata </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-vpnhrjkf-uh.html" target="_blank" title="無法在java中使用jsoup從html中提取內容?"> 無法在java中使用jsoup從html中提取內容? </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-bkqbpyut-bhe.html" target="_blank" title="使用JSoup提取HTML表格內容"> 使用JSoup提取HTML表格內容 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-bdqrpzlj-we.html" target="_blank" title="jsoup從表中獲取的URL TD"> jsoup從表中獲取的URL TD </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-ebqzsgyo-bbm.html" target="_blank" title="使用jsoup從表中提取內容"> 使用jsoup從表中提取內容 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.uwenku.com/contact">聯系我們</a></li> <li>© 2020 HK.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>