2009-08-01 38 views

回答

1

我有一些運氣http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ

管道的源具有的所有信息,但關鍵位運行一個過濾器,正則表達式^[A-Za-z 0-9 \.,\?'""[email protected]#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]〜] + $`。

這將過濾掉在標題中使用除標準ASCII之外的其他任何提要。不幸的是,這意味着它也會過濾諸如「簡歷」之類的詞,但調整正則表達式應該很容易包含來自您所知語言的常見非英文字符。

+0

謝謝!這對我來說會很好。 – MvdD 2009-08-02 20:43:35

0

您可能希望跳過標題,其中超過X%的字符不是來自指定給您可以理解的那些語言的腳本的代碼塊。例如,如果您不能閱讀希臘語,俄語,阿拉伯語,希伯來語,亞美尼亞語,中文,日語,韓語,印度語等,拒絕標題超過(例如)10%以上的字符不在U + 0000至U + 0233。這給你留下了拉丁字母。留下10%的保證金是爲了標點符號;技術文章也可能使用不在基本字母表中的符號。