2011-08-16 23 views
2

現在,我有一個網站抓取圖像。這些圖像是基於他們是否允許不安全(18+)圖像的偏好提供的。不安全圖像的圖像擬合

現在我們整理出我們自己的圖像,它需要很長的時間,因爲我們得到了很多,每天像意見書。

我知道谷歌它很好。

我只想把性和色情性質的圖像整理出來。比基尼女孩很好。

我心中有一個想法,其中程序會搜索的圖像,我不希望顯示的圖像的圖案。例如搜索私有圖片,然後如果發現該圖案,則將其標記爲不安全。

我在想,如果有,可以用來執行這個對我們的任何程序或在PHP算法?

+1

即使在人類中,它也可能是相當主觀的,應該過濾爲「不安全」。我想象一個程序可以在簡單的情況下識別「不安全」的圖像,但是可能會有更多的東西溜走,並且可能還有很多誤報。 – FrustratedWithFormsDesigner

+0

這是http://stackoverflow.com/questions/2010763/php-blocking-of-uploaded-adult-images的副本。 –

+0

沒有簡單的解決方案。我將首先對已標記的圖像進行數據分析,並嘗試對這些圖像進行模式匹配。顏色選擇範圍,平均顏色模式等。 – zzzzBov

回答

1

即使SimpleCoder的解決方案是遠遠比這更復雜,我還是會建議手動緩和圖像。除非你花費數千美元製作一些非常先進的算法,否則你總會有誤報和負面影響。就像一個小實驗一樣,我去了http://pikture.logikit.net/Demo/index並上傳了8張圖片。 6個是乾淨的,2個是清晰的。在兩幅明確的圖像中,一幅被錯誤地標記爲乾淨。在六張乾淨的圖像中,有四張被錯誤地標記爲明確的。請注意,我故意試圖通過選擇我認爲計算機會混淆的圖像來欺騙它,結果證明這很容易。他們的計劃得分僅爲37.5%。

這裏有事情,至少應該讓生活容易一些的主持人,不應該太困難編程實現了幾個建議:

1)採取一切目前拒絕圖像(如果可能的話)和散列文件並將哈希存儲在數據庫中。當所有新提交的內容都進入哈希時,並對照已存在的哈希來驗證哈希。如果找到匹配項,則自動將其標記。當管理員手動拒絕圖像時,也將該散列添加到數據庫中。這至少可以防止您重新標記重複項。

2)如果有明確的內容在該域上的任何文件中的$ isPornScore添加重量從整個域的所有圖像。對於來自一個域的多個事件,可能應該給予更多的權重。與鏈接到這些域上的圖像的域類似。

3)檢查域名本身。如果它包含顯式語言,請添加到$ isPornScore。也應該對圖像和包含錨標記的頁面的URI(如果不同)做同樣的處理。

4)檢查圖像周圍的文字。儘管這不是100%準確的,但如果你在頁面某處有一個明顯的「與三個女人和......農場性交XXX」,你至少可以增加該頁面(或域)上所有圖像的重量明確。

5)使用任何其他技術或標準,你可以和應用整體「分數」的形象。然後使用自己的判斷和/或反覆試驗,如果得分高於一定數量,則自動將其標記爲明確並標記它。嘗試達到誤報之間的可接受平衡,以及不顯示圖像的成本。如果沒有自動標記爲顯式,仍需要主持人干預。

1

我假設你要根據圖像內容進行過濾,而不是環境(是在圖像周圍例如什麼話)。

這是一些相當激烈的AI。您需要訓練一個算法,以便它能夠「學習」不安全圖像的外觀。下面是關於這個問題的重要論文:http://www.stanford.edu/class/cs229/proj2005/HabisKrsmanovic-ExplicitImageFilter.pdf

+0

感謝您的鏈接 – Anush

+0

當然,沒問題。我還通過此搜索獲得了一系列搜索結果:http://www.google.com/search?sourceid=chrome&ie=UTF-8&q=alogrithm+to+filter+explicit+images#hl=zh-CN&sa=X&ei=6bxKTvmsJ8WugQeL5Ihz&ved=0CBkQvwUoAQ&q =算法+至+過濾+明確+圖像和拼寫= 1&BAV = on.2,or.r_gc.r_pw。&FP = 1a2cc6000ca7d280&BIW = 1280&波黑= 675 –