不安全圖像的圖像擬合

現在，我有一個網站抓取圖像。這些圖像是基於他們是否允許不安全（18+）圖像的偏好提供的。不安全圖像的圖像擬合

現在我們整理出我們自己的圖像，它需要很長的時間，因爲我們得到了很多，每天像意見書。

我知道谷歌它很好。

我只想把性和色情性質的圖像整理出來。比基尼女孩很好。

我心中有一個想法，其中程序會搜索的圖像，我不希望顯示的圖像的圖案。例如搜索私有圖片，然後如果發現該圖案，則將其標記爲不安全。

我在想，如果有，可以用來執行這個對我們的任何程序或在PHP算法？

來源

2011-08-16 Anush

即使在人類中，它也可能是相當主觀的，應該過濾爲「不安全」。我想象一個程序可以在簡單的情況下識別「不安全」的圖像，但是可能會有更多的東西溜走，並且可能還有很多誤報。 – FrustratedWithFormsDesigner

這是http://stackoverflow.com/questions/2010763/php-blocking-of-uploaded-adult-images的副本。 –

沒有簡單的解決方案。我將首先對已標記的圖像進行數據分析，並嘗試對這些圖像進行模式匹配。顏色選擇範圍，平均顏色模式等。 – zzzzBov

即使SimpleCoder的解決方案是遠遠比這更復雜，我還是會建議手動緩和圖像。除非你花費數千美元製作一些非常先進的算法，否則你總會有誤報和負面影響。就像一個小實驗一樣，我去了http://pikture.logikit.net/Demo/index並上傳了8張圖片。 6個是乾淨的，2個是清晰的。在兩幅明確的圖像中，一幅被錯誤地標記爲乾淨。在六張乾淨的圖像中，有四張被錯誤地標記爲明確的。請注意，我故意試圖通過選擇我認爲計算機會混淆的圖像來欺騙它，結果證明這很容易。他們的計劃得分僅爲37.5％。

這裏有事情，至少應該讓生活容易一些的主持人，不應該太困難編程實現了幾個建議：

1）採取一切目前拒絕圖像（如果可能的話）和散列文件並將哈希存儲在數據庫中。當所有新提交的內容都進入哈希時，並對照已存在的哈希來驗證哈希。如果找到匹配項，則自動將其標記。當管理員手動拒絕圖像時，也將該散列添加到數據庫中。這至少可以防止您重新標記重複項。

2）如果有明確的內容在該域上的任何文件中的$ isPornScore添加重量從整個域的所有圖像。對於來自一個域的多個事件，可能應該給予更多的權重。與鏈接到這些域上的圖像的域類似。

3）檢查域名本身。如果它包含顯式語言，請添加到$ isPornScore。也應該對圖像和包含錨標記的頁面的URI（如果不同）做同樣的處理。

4）檢查圖像周圍的文字。儘管這不是100％準確的，但如果你在頁面某處有一個明顯的「與三個女人和......農場性交XXX」，你至少可以增加該頁面（或域）上所有圖像的重量明確。

5）使用任何其他技術或標準，你可以和應用整體「分數」的形象。然後使用自己的判斷和/或反覆試驗，如果得分高於一定數量，則自動將其標記爲明確並標記它。嘗試達到誤報之間的可接受平衡，以及不顯示圖像的成本。如果沒有自動標記爲顯式，仍需要主持人干預。

來源

2011-08-16 20:12:16 Mike

我假設你要根據圖像內容進行過濾，而不是環境（是在圖像周圍例如什麼話）。

這是一些相當激烈的AI。您需要訓練一個算法，以便它能夠「學習」不安全圖像的外觀。下面是關於這個問題的重要論文：http://www.stanford.edu/class/cs229/proj2005/HabisKrsmanovic-ExplicitImageFilter.pdf

來源

2011-08-16 18:56:10

感謝您的鏈接 – Anush

當然，沒問題。我還通過此搜索獲得了一系列搜索結果：http://www.google.com/search?sourceid=chrome&ie=UTF-8&q=alogrithm+to+filter+explicit+images#hl=zh-CN&sa=X&ei=6bxKTvmsJ8WugQeL5Ihz&ved=0CBkQvwUoAQ&q =算法+至+過濾+明確+圖像和拼寫= 1＆BAV = on.2，or.r_gc.r_pw。＆FP = 1a2cc6000ca7d280＆BIW = 1280＆波黑= 675 –

不安全圖像的圖像擬合

回答

相關問題