2015-10-07 32 views
0

我的任務是在python中創建一個程序,該程序從新聞的第一篇文章中提取數據RSS feed並以不同的格式顯示它。在RSS提要上發佈新文章時,該程序必須更新,因此無法進行硬編碼。使用python正則表達式從RSS提要中提取某些元素

我已經瀏覽了python regex上的所有其他答案,他們都建議使用Beautiful Soup,不幸的是我除了pythons RE庫之外無法使用其他任何東西。我遇到的麻煩是用正則表達式來獲取頁面上第一篇文章的標題,日期,圖片和第一句,而忽略其餘部分。

Source code of RSS

+0

從我可以看到我想要的文章的標題總是在第三個標籤中。是否有可能孤立使用正則表達式? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/4779104/">Hinchy</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">回答</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>你怎麼現在執行.py文件?這個問題需要一些工作和方法。就像問一個麪包師,<em>你怎麼烤蛋糕?</em></p> <p>我想創建一個名爲或許,reader.py的.py腳本和我將執行它像這樣:</p> <pre><code class="prettyprint-override">C:\Python27\ python reader.py </code></pre> <p><strong>Basic示例(reader.py):</strong></p> <pre><code class="prettyprint-override">import re names_file = open("file_getting_read.txt", encoding="utf-8") data = names_file.read() names_file.close() </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/33005986">來源</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2015-10-08 03:15:25</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> <!-- comments --> <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">它是一個獨立的.py文件,它有一個包含4個按鈕的gui。每個按鈕都指向一個不同的RSS源,每次按下時,程序將獲取RSS源中的第一項並下載其標題,日期,圖片和文章的第一句。 前端不是問題,我只是努力使用正則表達式隔離第一篇文章的內容,而忽略其餘部分。 你還想知道什麼? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/4779104/">Hinchy</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.uwenku.com/question/p-spzyvvel-gz.html" target="_blank" title="使用python正則表達式從rss提要中提取內容"> 使用python正則表達式從rss提要中提取內容 </a> </li> <li> 2. <a href="http://hk.uwenku.com/question/p-dgomsgal-hw.html" target="_blank" title="使用python正則表達式從Craigslist RSS提要地址提要"> 使用python正則表達式從Craigslist RSS提要地址提要 </a> </li> <li> 3. <a href="http://hk.uwenku.com/question/p-wvrznlwx-co.html" target="_blank" title="C#正則表達式從數字中提取某些數字"> C#正則表達式從數字中提取某些數字 </a> </li> <li> 4. <a href="http://hk.uwenku.com/question/p-ybizhfvk-m.html" target="_blank" title="正則表達式來獲取RSS提要項目摘要"> 正則表達式來獲取RSS提要項目摘要 </a> </li> <li> 5. <a href="http://hk.uwenku.com/question/p-gjqexxnx-bbc.html" target="_blank" title="正則表達式提取器中必須使用哪些正則表達式?"> 正則表達式提取器中必須使用哪些正則表達式? </a> </li> <li> 6. <a href="http://hk.uwenku.com/question/p-fxnnevfv-rm.html" target="_blank" title="從字符串中提取元素的正則表達式"> 從字符串中提取元素的正則表達式 </a> </li> <li> 7. <a href="http://hk.uwenku.com/question/p-xobeymog-et.html" target="_blank" title="使用哪個正則表達式從HTML文本中提取某些單詞?"> 使用哪個正則表達式從HTML文本中提取某些單詞? </a> </li> <li> 8. <a href="http://hk.uwenku.com/question/p-wfdhqrpp-bnv.html" target="_blank" title="取下一個RSS提要的某些元素,如短代碼"> 取下一個RSS提要的某些元素,如短代碼 </a> </li> <li> 9. <a href="http://hk.uwenku.com/question/p-xhmdonod-bby.html" target="_blank" title="從MDX查詢提取元素的正則表達式"> 從MDX查詢提取元素的正則表達式 </a> </li> <li> 10. <a href="http://hk.uwenku.com/question/p-zinxooby-xd.html" target="_blank" title="Python正則表達式提取Lookahead"> Python正則表達式提取Lookahead </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://hk.uwenku.com/question/p-mweuhohe-bbz.html" target="_blank" title="Python正則表達式提取'name = ....'"> Python正則表達式提取'name = ....' </a> </li> <li> 12. <a href="http://hk.uwenku.com/question/p-huaeygim-bmv.html" target="_blank" title="Python提取值beautifulsoup正則表達式"> Python提取值beautifulsoup正則表達式 </a> </li> <li> 13. <a href="http://hk.uwenku.com/question/p-wtgxhyra-nc.html" target="_blank" title="Python正則表達式部分提取"> Python正則表達式部分提取 </a> </li> <li> 14. <a href="http://hk.uwenku.com/question/p-twlqujhb-ca.html" target="_blank" title="提取URL的Python正則表達式"> 提取URL的Python正則表達式 </a> </li> <li> 15. <a href="http://hk.uwenku.com/question/p-vcmhbvec-ew.html" target="_blank" title="提取在Python正則表達式"> 提取在Python正則表達式 </a> </li> <li> 16. <a href="http://hk.uwenku.com/question/p-srzirhdp-uz.html" target="_blank" title="正則表達式提取"> 正則表達式提取 </a> </li> <li> 17. <a href="http://hk.uwenku.com/question/p-chidrjzx-bnm.html" target="_blank" title="正則表達式提取"> 正則表達式提取 </a> </li> <li> 18. <a href="http://hk.uwenku.com/question/p-drzbfhud-dt.html" target="_blank" title="提取某些URL的正則表達式?"> 提取某些URL的正則表達式? </a> </li> <li> 19. <a href="http://hk.uwenku.com/question/p-pxukraai-gs.html" target="_blank" title="提取使用正則表達式"> 提取使用正則表達式 </a> </li> <li> 20. <a href="http://hk.uwenku.com/question/p-xrpeyfvx-qc.html" target="_blank" title="使用正則表達式提取值"> 使用正則表達式提取值 </a> </li> <li> 21. <a href="http://hk.uwenku.com/question/p-qgxmmbin-ux.html" target="_blank" title="使用正則表達式提取域"> 使用正則表達式提取域 </a> </li> <li> 22. <a href="http://hk.uwenku.com/question/p-mucdojge-mq.html" target="_blank" title="提取使用正則表達式"> 提取使用正則表達式 </a> </li> <li> 23. <a href="http://hk.uwenku.com/question/p-zuihxeik-bab.html" target="_blank" title="值提取使用正則表達式"> 值提取使用正則表達式 </a> </li> <li> 24. <a href="http://hk.uwenku.com/question/p-zwawoyec-en.html" target="_blank" title="使用正則表達式提取值"> 使用正則表達式提取值 </a> </li> <li> 25. <a href="http://hk.uwenku.com/question/p-uhjmqxgx-bay.html" target="_blank" title=":提取使用正則表達式"> :提取使用正則表達式 </a> </li> <li> 26. <a href="http://hk.uwenku.com/question/p-gyizcazl-bcr.html" target="_blank" title="提取使用正則表達式"> 提取使用正則表達式 </a> </li> <li> 27. <a href="http://hk.uwenku.com/question/p-hdzguaxm-et.html" target="_blank" title="提取使用Java +正則表達式"> 提取使用Java +正則表達式 </a> </li> <li> 28. <a href="http://hk.uwenku.com/question/p-eewmyhxt-bhd.html" target="_blank" title="提取使用正則表達式"> 提取使用正則表達式 </a> </li> <li> 29. <a href="http://hk.uwenku.com/question/p-qnntpynq-nx.html" target="_blank" title="提取使用正則表達式"> 提取使用正則表達式 </a> </li> <li> 30. <a href="http://hk.uwenku.com/question/p-puohrsfn-beb.html" target="_blank" title="提取使用正則表達式"> 提取使用正則表達式 </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048261"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-yxiqoflb-bu.html" target="_blank" title="FIFO與/ dev/urandom"> FIFO與/ dev/urandom </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-whezobpa-cp.html" target="_blank" title="將劇情保存爲EMF文件"> 將劇情保存爲EMF文件 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-nffmqfzm-hb.html" target="_blank" title="如何從SNMP MIB獲取ifOperStatus?"> 如何從SNMP MIB獲取ifOperStatus? </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-vrrebkhm-kr.html" target="_blank" title="在同一個表列中選擇重複的記錄並將它們列出"> 在同一個表列中選擇重複的記錄並將它們列出 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-xzagrdwt-hw.html" target="_blank" title="如何傳遞一個變量在web API"> 如何傳遞一個變量在web API </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-keloufdr-eb.html" target="_blank" title="LendingClub.com API內部服務器在二級市場上購買票據的錯誤"> LendingClub.com API內部服務器在二級市場上購買票據的錯誤 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-golxqduv-gs.html" target="_blank" title="TCP/IP數據包中的端口號"> TCP/IP數據包中的端口號 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-fwrwoodx-ex.html" target="_blank" title="模擬Angular 2中的長響應"> 模擬Angular 2中的長響應 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-bcntqxlt-z.html" target="_blank" title="如何在QSplitter中設置QTreeView的初始大小?"> 如何在QSplitter中設置QTreeView的初始大小? </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-wjcpqafr-d.html" target="_blank" title="打印響應部分完成Python的異步事件循環,同時還完成任務的響應"> 打印響應部分完成Python的異步事件循環,同時還完成任務的響應 </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-spzyvvel-gz.html" target="_blank" title="使用python正則表達式從rss提要中提取內容"> 使用python正則表達式從rss提要中提取內容 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-dgomsgal-hw.html" target="_blank" title="使用python正則表達式從Craigslist RSS提要地址提要"> 使用python正則表達式從Craigslist RSS提要地址提要 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-wvrznlwx-co.html" target="_blank" title="C#正則表達式從數字中提取某些數字"> C#正則表達式從數字中提取某些數字 </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-ybizhfvk-m.html" target="_blank" title="正則表達式來獲取RSS提要項目摘要"> 正則表達式來獲取RSS提要項目摘要 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-gjqexxnx-bbc.html" target="_blank" title="正則表達式提取器中必須使用哪些正則表達式?"> 正則表達式提取器中必須使用哪些正則表達式? </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-fxnnevfv-rm.html" target="_blank" title="從字符串中提取元素的正則表達式"> 從字符串中提取元素的正則表達式 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-xobeymog-et.html" target="_blank" title="使用哪個正則表達式從HTML文本中提取某些單詞?"> 使用哪個正則表達式從HTML文本中提取某些單詞? </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-wfdhqrpp-bnv.html" target="_blank" title="取下一個RSS提要的某些元素,如短代碼"> 取下一個RSS提要的某些元素,如短代碼 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-xhmdonod-bby.html" target="_blank" title="從MDX查詢提取元素的正則表達式"> 從MDX查詢提取元素的正則表達式 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-zinxooby-xd.html" target="_blank" title="Python正則表達式提取Lookahead"> Python正則表達式提取Lookahead </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.uwenku.com/contact">聯系我們</a></li> <li>© 2020 HK.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>