我喜歡跟蹤delicious.com/popular RSS訂閱。然而,最近在項目中有越來越多的亞洲頁面。由於我不懂亞洲語言,我想以某種方式從Feed中過濾它們並節省一些時間。如何從RSS提要中過濾亞洲語言?
我一直在嘗試使用Yahoo pipes來製作一些東西,但一直未能得到它的工作。
任何任何想法如何使這項工作?
我喜歡跟蹤delicious.com/popular RSS訂閱。然而,最近在項目中有越來越多的亞洲頁面。由於我不懂亞洲語言,我想以某種方式從Feed中過濾它們並節省一些時間。如何從RSS提要中過濾亞洲語言?
我一直在嘗試使用Yahoo pipes來製作一些東西,但一直未能得到它的工作。
任何任何想法如何使這項工作?
我有一些運氣http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ
管道的源具有的所有信息,但關鍵位運行一個過濾器,正則表達式^[A-Za-z 0-9 \.,\?'""[email protected]#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]
〜] + $`。
這將過濾掉在標題中使用除標準ASCII之外的其他任何提要。不幸的是,這意味着它也會過濾諸如「簡歷」之類的詞,但調整正則表達式應該很容易包含來自您所知語言的常見非英文字符。
您可能希望跳過標題,其中超過X%的字符不是來自指定給您可以理解的那些語言的腳本的代碼塊。例如,如果您不能閱讀希臘語,俄語,阿拉伯語,希伯來語,亞美尼亞語,中文,日語,韓語,印度語等,拒絕標題超過(例如)10%以上的字符不在U + 0000至U + 0233。這給你留下了拉丁字母。留下10%的保證金是爲了標點符號;技術文章也可能使用不在基本字母表中的符號。
謝謝!這對我來說會很好。 – MvdD 2009-08-02 20:43:35