0
我在社交媒體監控系統上工作。我們不會自己抓取網頁,我們從Spinn3r等聚合器獲取Feed。在大多數情況下,只有鏈接到色情網站的「博客」被過濾掉,但我們希望內部的內容能夠在更快的時間內進行培訓,而不是等待上游提供商進行更改。開箱即用垃圾郵件過濾?
我看着Spamassassin,如果我們正在處理電子郵件,它對我們的目的來說是理想的。是否有任何一個圖書館可以只讀取一定數量的文本,並根據工作頻率,鏈接數量,隱藏背景文本等內容爲其提供質量得分?
理想情況下,我正在尋找Java中的某些東西,但如果沒有任何東西,我可以使用客戶端服務器或嵌入jruby或jython庫。
我想我最終不得不自己建造它,但它總是值得一試。