2012-05-08 27 views
4

我正在努力爲媽媽在飲食禮儀上得到通知,她在Stater Bros購買時開始銷售。我的想法是,我可以創建一個雅虎管道,爲每週的廣告飼料和字符串Diet Rite過濾。 Yahoo Pipe本身就是一個RSS feed,因此,我會將Pipe傳送給Google Reader,因此我的母親會知道Stater Bros是否有銷售。我怎麼讓我的媽媽知道她的汽水何時上市?

看到Stater Bros的weekly ad可搜索PDF,我認爲這將是一個簡單的事情,讓雅虎管道搜索它。但是,Yahoo Pipes不支持PDF。

然後我決定通過一個在線的PDF轉換爲HTML轉換器,並將其傳送到Yahoo Pipes中的Fetch Page模塊。事實上,轉換器是quite successful,因爲生成的HTML保留了文本,我可以搜索它並找到我需要的東西。但事實證明,它將數據以幀的形式輸出 - 因此我無法使用它。我找不到任何其他在線PDF轉換器。

即使我能夠將PDF的HTML格式導入到Yahoo Pipes中,我也不確定這樣做會有什麼好處,因爲Yahoo Pipes不提供搜索/過濾HTML的方法。它主要用於提要。

所以我卡住了。關於如何實現我想要做的事情的任何想法?

回答

2

如果你不使用它媒體鏈接,那麼你可能想看看谷歌的緩存系統..

http://webcache.googleusercontent.com/search?q=cache:http://www.staterbros.com/Images/PDFs/weekly.aspx 

它沒有被廣泛SEO圈子之外知,但Googlebot便實際執行粗PDF到HTML &文本轉換。如果您不能等待Google轉換PDF文件,那麼還有一些免費的PHP腳本可以執行相同的功能。

因爲您不得不向後兼容管道的'Preg_match',因此請刪除不在您要查找的內容。

爲更換模塊的正則表達式看起來是這樣的...... ^(。+?)飲食禮(。+?)$ 從字符串的開頭達人「的飲食禮」替換爲一切什麼 然後更換的飲食禮「後,一切都沒事了字符串的結尾..

因此,如果「飲食祭」在頁面上存在,它將在管顯示出來,並可以添加到一個RSS feed否則管道返回空白。