0
我有一個包含某些RSS提要的URL的文本文件。我想知道哪些網址有一個標題或描述(或任何其他標籤)包含特定字符串(單詞列表)。僅當標題或描述包含%字符串時才獲取URL,標題和描述%
至於現在,我能夠得到的網址,標題和標題(以及其他)。不確定如何繼續。我想我會用正則表達式來檢查標籤。如果我檢查了網址標題並找到了字匹配,那麼我將如何再次檢索該網址? URL需要連接到標籤,就像.csv一樣。有點困惑在這裏。也許有人可以向正確的方向射擊我?
我至今路徑:
import requests
from bs4 import BeautifulSoup
rssfeed = open('input.txt')
rss_source = rssfeed.read()
rss_sources = rss_source.split()
i=0
while i<len(rss_sources):
get_rss = requests.get(rss_sources[i])
rss_soup = BeautifulSoup(get_rss.text, 'html.parser')
rss_urls = rss_soup.find_all('link')
i=i+1
for url in rss_urls:
rss_all_urls = url.text
open_urls = requests.get(rss_all_urls)
target_urls_soup = BeautifulSoup(open_urls.text, 'html.parser')
urls_titles = target_urls_soup.title
urls_headlines = target_urls_soup.h1
print (rss_all_urls, urls_titles, urls_headlines)
在詞匹配後你想做什麼? – Casey
基本上我想要我自己的飼料。所以我只想在標題或說明中找到那些有興趣關鍵字的網址。例如:我從NYTimes獲取RSS Feed,並只需要那些談論「社交媒體」,「facebook」,「twitter」等的文檔(URL)...... – eLudium
好的,那麼爲什麼您需要檢索匹配後再次訪問網址?逐行評論此代碼以描述發生的事情可能會有所幫助 – Casey