2014-04-10 160 views
4

我想爲我的網站建立一個RSS飼料履帶。雖然我不太清楚,但是怎麼開始呢。我的抓取工具如何識別RSS提要?我有什麼可以抓取的東西,哪個RSS閱讀器有? 我不需要任何代碼,只是幫助我的大腦瞭解我必須創建什麼。PHP RSS飼料履帶

感謝之前!

問候

Xatenev

+0

檢查https://superfeedr.com如果你不想重新發明輪子:) –

+0

嘿,它似乎很酷,但我能做什麼呢? :P這似乎是一個巨大的數據庫的飼料,我(可能)得到了很多RSS源。那是正確的嗎?^^ – Xatenev

回答

2

我認爲,如果你的抓取工具掃描所有鏈接和至少一個時間去尋找文本<rss version="2.0">打開每個頁面有可能。據我所知,每個RSS提要都應該包含這一行。

<?xml version="1.0" encoding="UTF-8" ?> 
<rss version="2.0"> 
<channel> 
<title>RSS Title</title> 
<description>This is an example of an RSS feed</description> 
<link>http://www.someexamplerssdomain.com/main.html</link> 
<lastBuildDate>Mon, 06 Sep 2010 00:01:00 +0000 </lastBuildDate> 
<pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate> 
<ttl>1800</ttl> 

<item> 
    <title>Example entry</title> 
    <description>Here is some text containing an interesting description.</description> 
    <link>http://www.wikipedia.org/</link> 
    <guid>unique string per item</guid> 
    <pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate> 
</item> 

</channel> 
</rss> 

如果你打算使用PHP,我對使用PHP構建的SimpleXML有非常積極的經驗。

P.S. Xatenev不客氣;)

+0

我該如何真正抓取這些RSS提要?我的抓取工具如何識別這些數據,並將數據返回給我,我需要哪些數據? – Xatenev

+0

我不知道你是否有很多正則表達式的經驗,我認爲這是一條路。 – Duke

+0

我知道正則表達式,但我的意思是一個爬蟲,例如,只是在網站上,拿起所有的鏈接,然後他繼續在另一個網站上爬行。我如何獲取網站上的所有RSS訂閱源?這些鏈接很容易從源代碼中找到,我可以從源代碼中找到RSS源嗎? – Xatenev