2011-06-29 22 views
3

我有一個10,000個公司網站的列表,並試圖發現他們的博客提要,如果他們有一個(任何和所有rss版本)。如果我不需要,我不想抓取它們,那麼是否有任何工具或特定技巧會在其中存在很大比例的Feed?如何以編程方式在給定域上發現博客提要?

我的第一個想法是尋找博客提要的標準位置,但大多數這些網站不主要是博客,他們是企業網站。歡迎任何建議。

基於PHP的工具是首選。

+0

你知道是否有任何特定的博客軟件正在使用? –

+0

我沒有關於這些網址的其他信息。 –

回答

2

爬他們是唯一明智的選擇,你可能只需要打他們的主頁。我會利用Feed::Find來獲取頁面並檢測提要URI。

+0

你知道任何類似於feed :: find的東西是用php寫的嗎? –

+0

不,但這不是一個複雜的問題,你可以移植[源代碼](http://api.metacpan.org/source/BTROTT/Feed-Find-0.07/lib/Feed/Find.pm)。 (儘管我不打擾,因爲學習足夠的Perl讀取URI列表並將其循環,將它饋送到Feed :: Find文檔中的示例中,然後存儲結果)並不難, – Quentin

2

當您只需將博客URL粘貼到Google閱讀器時,它可以自動保存RSS路徑。最有可能是谷歌閱讀器不會被檢查的事情的源代碼一樣

<link rel="alternate" type="application/atom+xml" ..

<link rel="alternate" type="application/rss" ..

這是Firefox和其他一些瀏覽器如何顯示您正在瀏覽普通頁面上的RSS圖標。您可以看到Firefox源代碼以獲得健康的結果。

除了這些,你可以考慮看/blog/rss/blog/feedblog.*.com/feed/atom或URL類似*.xml*.feed*.rss那些幾乎是最流行的RSS路徑,恕我直言。

相關問題