2012-09-05 150 views
3

這是假設直接訪問api不可用。由於我要求所有帖子,我不確定RSS會有多大幫助。從博客(wordpress或博客)獲取所有帖子

我考慮過一個簡單的系統,它可以循環遍歷每年和每月,並下載每個html文件,但更改每個年份月份對的以下URL。這適用於WordPress和博客博客。

http://www.lostincheeseland.com/2011/05  

但是,有沒有辦法使用博客提供的以下搜索功能來返回所有博客?我玩過它,但文檔似乎很少。

http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6 

有沒有其他方法我沒有考慮過?

+0

刪除了的Ruby-on-軌道標記,因爲這個問題是不具體到Rails – ideasasylum

回答

4

你在找什麼是sitemap

首先,您正在編寫機器人程序,因此檢查博客的robots.txt文件是很好的舉止。瞧,你會經常在那裏找到一個網站地圖。下面是來自Google blog一個例子:

User-agent: Mediapartners-Google 
Disallow: 

User-agent: * 
Disallow: /search 
Allow:/

Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED 

在這種情況下,您可以訪問Sitemaps網址以獲得一個XML站點地圖。

對於WordPress,同樣適用,但它不是標準內置的,所以並不是所有的博客都會擁有它。看看this plugin這是在Wordpress中創建這些站點地圖的最流行的方式。例如,我的博客使用此,你可以找到在/sitemap.xml (標準位置)

在短的Sitemap:

  • 檢查的robots.txt
  • 按照Sitemaps網址,如果它是目前
  • 否則,檢查/sitemap.xml

另外:be a good Internet citizen!如果你打算寫一個機器人,確保其遵守robots.txt文件(等,其中的BlogSpot告訴你明確使用/search!)

+0

除此之外,還值得檢查'/ sitemap_index.xml',有時自動重定向不起作用,不知道爲什麼例如kitchenstewardship dot com –