我的任務是在python中創建一個程序,該程序從新聞的第一篇文章中提取數據RSS feed並以不同的格式顯示它。在RSS提要上發佈新文章時,該程序必須更新,因此無法進行硬編碼。使用python正則表達式從RSS提要中提取某些元素
我已經瀏覽了python regex上的所有其他答案,他們都建議使用Beautiful Soup,不幸的是我除了pythons RE庫之外無法使用其他任何東西。我遇到的麻煩是用正則表達式來獲取頁面上第一篇文章的標題,日期,圖片和第一句,而忽略其餘部分。
我的任務是在python中創建一個程序,該程序從新聞的第一篇文章中提取數據RSS feed並以不同的格式顯示它。在RSS提要上發佈新文章時,該程序必須更新,因此無法進行硬編碼。使用python正則表達式從RSS提要中提取某些元素
我已經瀏覽了python regex上的所有其他答案,他們都建議使用Beautiful Soup,不幸的是我除了pythons RE庫之外無法使用其他任何東西。我遇到的麻煩是用正則表達式來獲取頁面上第一篇文章的標題,日期,圖片和第一句,而忽略其餘部分。
你怎麼現在執行.py文件?這個問題需要一些工作和方法。就像問一個麪包師,你怎麼烤蛋糕?
我想創建一個名爲或許,reader.py的.py腳本和我將執行它像這樣:
C:\Python27\ python reader.py
Basic示例(reader.py):
import re
names_file = open("file_getting_read.txt", encoding="utf-8")
data = names_file.read()
names_file.close()
它是一個獨立的.py文件,它有一個包含4個按鈕的gui。每個按鈕都指向一個不同的RSS源,每次按下時,程序將獲取RSS源中的第一項並下載其標題,日期,圖片和文章的第一句。 前端不是問題,我只是努力使用正則表達式隔離第一篇文章的內容,而忽略其餘部分。 你還想知道什麼? – Hinchy
從我可以看到我想要的文章的標題總是在第三個