2013-06-12 139 views
0

我剛開始學習如何使用正則表達式從網站中提取數據。我的第一個目標是提取網站的標題。這裏是我的代碼是什麼樣子:爲什麼有些網站不可刮?

<?php 
    $data = file_get_contents('http://bctia.org'); 
    $regex = '/<title>(.+?)<\/title>/'; 
    preg_match($regex,$data,$match); 
    var_dump($match); 
?> 

的var_dump的結果是空的:

array(0) { } 

起初我還以爲,「也許bctia.org沒有一個標題」?但是,情況並非如此,因爲我檢查了bctia.org的來源,並且其確實含有<title></title>之間的內容。

然後我想,也許我的代碼不起作用?但是,這也不是這種情況,因爲我用其他網站代替了bctia.org,例如bing.comapple.com,他們都返回了正確的結果。例如,apple.com我得到正確的結果

array(2) { [0]=> string(20) "" [1]=> string(5) "Apple" } 

所以,我必須得出的結論是bctia.org是一個非常特殊的網站,讓我無法提取其標題...

我想知道那實際上是這樣嗎?或者,也許我的代碼有一些問題,我還沒有確定?

預先感謝您!

+0

在這種特定的情況下,缺乏'/ s'改性劑。 – mario

+3

我會在這裏留下:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – styfle

+0

嗨@mar​​io,感謝您的建議。不幸的是,在表達式中添加/s仍然不適用於bctia.org .. – Bing

回答

3

這個特定網站的服務器端代碼假設客戶端發送了一個User-Agent頭文件,顯然,您的PHP安裝未配置爲發送一個。因此返回500 Internal Server Error,導致file_get_contents返回false

Source Error: 
Line 66: //LOAD: Compatibility Mode 
Line 67: //<meta http-equiv="X-UA-Compatible" content="IE=7,IE=9" /> 
Line 68: string BrowserOS = Request.ServerVariables["HTTP_USER_AGENT"].ToString(); 
Line 69: HtmlMeta compMode = new HtmlMeta(); 
Line 70: compMode.Content = "IE=7,IE=9"; 


Source File: c:\inetpub\wwwroot\BCTIA\Website\bctia\layouts\Main Layout.aspx.cs 
Line: 68 

Stack Trace: 
[NullReferenceException: Object reference not set to an instance of an object.] 
    Layouts.Main_Layout.Page_Load(Object sender, EventArgs e) in c:\inetpub\wwwroot\BCTIA\Website\bctia\layouts\Main Layout.aspx.cs:68 
    System.Web.Util.CalliHelper.EventArgFunctionCaller(IntPtr fp, Object o, Object t, EventArgs e) +24 
    System.Web.UI.Control.LoadRecursive() +70 
    System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) +3063 

要解決此問題,只需將發出請求之前用戶代理字符串:

ini_set('user_agent', 'Mozilla/5.0 (compatible; Examplebot/0.1; +http://www.example.com/bot.html)'); 
+0

它的工作原理。謝謝!謝謝! – Bing

+0

@Bing True,但您必須針對''問題重新配置您的正則表達式。我用他的解決方法,它確實找到了你前面提到的'lang',但不是'<title>'。爲了使其工作,您必須使用'$ regex ='/ <title>(。+?)<\/title>/s';'。如果他們在單獨的線路上,這並不重要。這工作,我只是試了一下。 '$ regex ='/ <title>([^ <]+)<\/title> /';'也行。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>請勿使用正則表達式.. !!</p> <p>而是使用XPath來看看:<a href="http://php.net/manual/en/class.domxpath.php" rel="nofollow">xpath</a></p> <p>正則表達式將無法正常工作。</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/17055833">來源</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2013-06-12 00:15:54</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>用正則表達式解析html代碼不是一個好方法,因爲你可能會爲他的寬容結構感到驚訝。</p> <p>你的模式不工作的原因是點不符合換行符。</p> <p>如果你想使點匹配換行符使用s修飾符在模式的結束,或者不使用點:</p> <pre><code class="prettyprint-override">$regex = '/<title>(.+?)<\/title>/s'; </code></pre> <p>或</p> <pre><code class="prettyprint-override">$regex = '/<title>([^<]+)<\/title>/'; </code></pre> <p><code class="prettyprint-override">[^<]</code>是一個字符類包含所有字符,但包含<code class="prettyprint-override"><</code>,正如您所看到的,您不需要使用惰性量詞:<code class="prettyprint-override">+</code>而不是<code class="prettyprint-override">+?</code></p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/17055848">來源</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2013-06-12 00:17:48</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> <!-- comments --> <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">嗨Casimir,謝謝你的回答。然而,不幸的是,我無法使用您提出的任何一種模式來提取bctia.org的正確結果:<我們能否一起探索其他可能性? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/1124009/">Bing</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">@Bing:PleaseStand答案解決你的第一個問題後,使用兩個patten之一將解決你的第二個問題。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">謝謝卡西米爾! – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/1124009/">Bing</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.uwenku.com/question/p-semfiznh-bec.html" target="_blank" title="爲什麼有些網站有Https?"> 爲什麼有些網站有Https? </a> </li> <li> 2. <a href="http://hk.uwenku.com/question/p-rqjmgbyj-bae.html" target="_blank" title="爲什麼我不能從這個網站上刮掉標題?"> 爲什麼我不能從這個網站上刮掉標題? </a> </li> <li> 3. <a href="http://hk.uwenku.com/question/p-siqkqyos-gx.html" target="_blank" title="爲什麼我不能刮網站的任何想法?"> 爲什麼我不能刮網站的任何想法? </a> </li> <li> 4. <a href="http://hk.uwenku.com/question/p-udrsbxln-gx.html" target="_blank" title="爲什麼有些網站使用jquery而不是$ j?"> 爲什麼有些網站使用jquery而不是$ j? </a> </li> <li> 5. <a href="http://hk.uwenku.com/question/p-fwztscpx-ht.html" target="_blank" title="爲什麼有些網站在iPad上不能縮放?"> 爲什麼有些網站在iPad上不能縮放? </a> </li> <li> 6. <a href="http://hk.uwenku.com/question/p-cltvoueh-yk.html" target="_blank" title="爲什麼有些網站有'img'。現場?"> 爲什麼有些網站有'img'。現場? </a> </li> <li> 7. <a href="http://hk.uwenku.com/question/p-ajebcxuq-bka.html" target="_blank" title="網站有R刮,內容"> 網站有R刮,內容 </a> </li> <li> 8. <a href="http://hk.uwenku.com/question/p-zguhsexp-nw.html" target="_blank" title="刮網站"> 刮網站 </a> </li> <li> 9. <a href="http://hk.uwenku.com/question/p-frgntrfe-bo.html" target="_blank" title="網站刮圖"> 網站刮圖 </a> </li> <li> 10. <a href="http://hk.uwenku.com/question/p-wfaykssz-oo.html" target="_blank" title="刮javascript網站"> 刮javascript網站 </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://hk.uwenku.com/question/p-edvmrgyh-bmq.html" target="_blank" title="刮Flash網站"> 刮Flash網站 </a> </li> <li> 12. <a href="http://hk.uwenku.com/question/p-cgxcxnpn-za.html" target="_blank" title="Scrapy不能刮網站"> Scrapy不能刮網站 </a> </li> <li> 13. <a href="http://hk.uwenku.com/question/p-ggzrezlc-o.html" target="_blank" title="Scrapy不刮整個網站"> Scrapy不刮整個網站 </a> </li> <li> 14. <a href="http://hk.uwenku.com/question/p-cddotwry-bcw.html" target="_blank" title="爲什麼有些網站避免字符集聲明?"> 爲什麼有些網站避免字符集聲明? </a> </li> <li> 15. <a href="http://hk.uwenku.com/question/p-rieteelu-wu.html" target="_blank" title="爲什麼有些網站(如facebook)在iframe中加載腳本?"> 爲什麼有些網站(如facebook)在iframe中加載腳本? </a> </li> <li> 16. <a href="http://hk.uwenku.com/question/p-vozwpraf-sa.html" target="_blank" title="爲什麼有些網站有鏈接文件,如「afs342sf.css」而不是「main.css」?"> 爲什麼有些網站有鏈接文件,如「afs342sf.css」而不是「main.css」? </a> </li> <li> 17. <a href="http://hk.uwenku.com/question/p-flbxzkxp-beo.html" target="_blank" title="PHP不讓我輸出某些網站的html,爲什麼?"> PHP不讓我輸出某些網站的html,爲什麼? </a> </li> <li> 18. <a href="http://hk.uwenku.com/question/p-pfffxlya-y.html" target="_blank" title="爲什麼一些https網站不需要ocsp查詢"> 爲什麼一些https網站不需要ocsp查詢 </a> </li> <li> 19. <a href="http://hk.uwenku.com/question/p-xvgdwilz-sh.html" target="_blank" title="爲什麼我的網站不能加載一些圖片?"> 爲什麼我的網站不能加載一些圖片? </a> </li> <li> 20. <a href="http://hk.uwenku.com/question/p-cyjdkphk-ve.html" target="_blank" title="爲什麼Google不緩存我網站上的一些圖片"> 爲什麼Google不緩存我網站上的一些圖片 </a> </li> <li> 21. <a href="http://hk.uwenku.com/question/p-pemhbeao-qb.html" target="_blank" title="颳去網址不變的網站"> 颳去網址不變的網站 </a> </li> <li> 22. <a href="http://hk.uwenku.com/question/p-sygceehm-bev.html" target="_blank" title="的Youtube網站刮"> 的Youtube網站刮 </a> </li> <li> 23. <a href="http://hk.uwenku.com/question/p-wibcbhss-yq.html" target="_blank" title="刮一個網站"> 刮一個網站 </a> </li> <li> 24. <a href="http://hk.uwenku.com/question/p-ezsszfvs-zb.html" target="_blank" title="刮動態網站"> 刮動態網站 </a> </li> <li> 25. <a href="http://hk.uwenku.com/question/p-vrqgtfno-bdy.html" target="_blank" title="[R刮ASPX網站"> [R刮ASPX網站 </a> </li> <li> 26. <a href="http://hk.uwenku.com/question/p-gyrtmhne-bdm.html" target="_blank" title="刮壞HTML網站"> 刮壞HTML網站 </a> </li> <li> 27. <a href="http://hk.uwenku.com/question/p-gkvnejtc-ob.html" target="_blank" title="爲什麼沒有designer.cs的ASP.NET網站?"> 爲什麼沒有designer.cs的ASP.NET網站? </a> </li> <li> 28. <a href="http://hk.uwenku.com/question/p-atagyzxk-rw.html" target="_blank" title="有什麼方法可以查看網站允許哪些網址參數?"> 有什麼方法可以查看網站允許哪些網址參數? </a> </li> <li> 29. <a href="http://hk.uwenku.com/question/p-eeohbtky-rk.html" target="_blank" title="刮網站 - 這甚至可能嗎?"> 刮網站 - 這甚至可能嗎? </a> </li> <li> 30. <a href="http://hk.uwenku.com/question/p-hvarfofs-ss.html" target="_blank" title="爲什麼有些網站不打開WWW,但他們打開WWW。"> 爲什麼有些網站不打開WWW,但他們打開WWW。 </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048261"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-midalodf-bkb.html" target="_blank" title="檢查gtk.notebook中是否存在已定義文本的選項卡+ gtk3"> 檢查gtk.notebook中是否存在已定義文本的選項卡+ gtk3 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-muovepug-bkx.html" target="_blank" title="沒有訂閱時的默認操作?"> 沒有訂閱時的默認操作? </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-glrxikfo-zv.html" target="_blank" title="Apache進程不會在與RabbitMQ斷開連接後死亡"> Apache進程不會在與RabbitMQ斷開連接後死亡 </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-hhybnzxu-bab.html" target="_blank" title="Linq to Entities實現DateTime.ToString(字符串)"> Linq to Entities實現DateTime.ToString(字符串) </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-wgkidndv-bak.html" target="_blank" title="將JSON數據添加到html選項選擇器後,如何在選擇時引用其他數據?"> 將JSON數據添加到html選項選擇器後,如何在選擇時引用其他數據? </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-fxworgyb-bcq.html" target="_blank" title="如何在使用「timer」循環處理時訪問「路由」中的當前ZonedDateTime(或Date)?"> 如何在使用「timer」循環處理時訪問「路由」中的當前ZonedDateTime(或Date)? </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-qqsvtzpw-bch.html" target="_blank" title="如何用tkinter在鼠標座標後面畫一條線?"> 如何用tkinter在鼠標座標後面畫一條線? </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-ubotfvem-bca.html" target="_blank" title="Python重構此功能以將其認知複雜度從19降低到15允許"> Python重構此功能以將其認知複雜度從19降低到15允許 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-dvpkvujk-bbu.html" target="_blank" title="保留第一行作爲參考的Dataframe中的計算"> 保留第一行作爲參考的Dataframe中的計算 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-grejvctk-bbo.html" target="_blank" title="Google雲端平臺上的對象更改通知"> Google雲端平臺上的對象更改通知 </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-semfiznh-bec.html" target="_blank" title="爲什麼有些網站有Https?"> 爲什麼有些網站有Https? </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-rqjmgbyj-bae.html" target="_blank" title="爲什麼我不能從這個網站上刮掉標題?"> 爲什麼我不能從這個網站上刮掉標題? </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-siqkqyos-gx.html" target="_blank" title="爲什麼我不能刮網站的任何想法?"> 爲什麼我不能刮網站的任何想法? </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-udrsbxln-gx.html" target="_blank" title="爲什麼有些網站使用jquery而不是$ j?"> 爲什麼有些網站使用jquery而不是$ j? </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-fwztscpx-ht.html" target="_blank" title="爲什麼有些網站在iPad上不能縮放?"> 爲什麼有些網站在iPad上不能縮放? </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-cltvoueh-yk.html" target="_blank" title="爲什麼有些網站有'img'。現場?"> 爲什麼有些網站有'img'。現場? </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-ajebcxuq-bka.html" target="_blank" title="網站有R刮,內容"> 網站有R刮,內容 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-zguhsexp-nw.html" target="_blank" title="刮網站"> 刮網站 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-frgntrfe-bo.html" target="_blank" title="網站刮圖"> 網站刮圖 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-wfaykssz-oo.html" target="_blank" title="刮javascript網站"> 刮javascript網站 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.uwenku.com/contact">聯系我們</a></li> <li>© 2020 HK.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>