您的位置: 首頁 > 新聞 > 單機資訊 > 新聞詳情

色情女主播天敵!AI鑒黃領域揭秘:看膚色和姿勢

時間:2016-11-10 09:52:52
  • 來源:雷鋒網
  • 作者:liyunfei
  • 編輯:liyunfei

目前多家人工智能公司已開始布局鑒黃業(yè)務,阿里巴巴和騰訊分別擁有阿里綠網、萬象優(yōu)圖兩大鑒黃系統(tǒng)。而在創(chuàng)業(yè)公司方面,較為知名的有圖普科技、飛搜科技、深圖智服等公司。

近期在線直播火爆,因此有些公司開始切入直播鑒黃這個細分領域。為此,雷鋒網就以下問題請教了來自專攻色情識別的圖普科技和在計算機視覺公司云從科技的技術專家進行解讀。

網絡配圖

網絡配圖

直播(如花椒、映客)、在線視頻(如優(yōu)酷、愛奇藝)、圖片鑒黃的區(qū)別在哪兒?直播的鑒黃難度是否最大?要解決哪些技術問題?

云從科技高級算法工程師周翔:

其實這三項(直播,在線視頻,圖片鑒黃)差異不大,三者都可歸類為實時視頻處理和海量圖片處理。

視頻/直播是動態(tài)的,圖片是靜態(tài)的。鑒別視頻和直播時,可以把動態(tài)內容解碼變成圖片幀來判斷,這樣就與靜態(tài)圖片鑒別沒差了。

至于技術問題,其實鑒黃在算法層面難度并不高,利用深度學習算法訓練后,就能達到不錯的鑒黃效果。

圖普科技工程師則在計算能力和算法要求上做了一些小補充:

目前主要是通過間隔截圖、關鍵幀截圖之類的對直播和在線視頻進行識別處理,所以最終也是對單張圖片的處理。

但是,由于直播的實時性,所以直播相對于另外在線視頻和圖片,對于機器的圖片識別的處理速度要求較高,這主要是對于計算能力和算法的要求加大。

至于是屏蔽、刪除或者禁播等方面的處理,主要是看業(yè)務方,可以選擇由機器自動處理或者人工介入。

既然算法門檻不是很高,為什么一些CV公司不增一項視頻/直播鑒黃業(yè)務撈點油水?

云從科技高級算法工程師周翔:

一方面是他們不太愿意做。

另一方面雖然CV公司可能有現(xiàn)成的鑒黃算法訓練系統(tǒng)平臺,但是他們缺數據。鑒黃需要大量的數據來進行訓練。黃色圖片和視頻幀最好達到十萬的量級深度學習才能跑起來。至于如何收集這些數據,一般情況下很多視頻直播都已經有現(xiàn)成的,包括鑒黃中心等都有非常大量的此類圖片。

剛提到大批量數據用深度學習來訓練,而訓練小批量數據一般采用傳統(tǒng)的特征分析加分類器算法來做,但效果和精度沒有目前的深度學習高。

直播鑒黃是不是要識別里面的每一幀圖像,這樣計算量豈不是很大?

圖普科技工程師:

這與算法能力關系不大,在算法和工程能力都已經達到最優(yōu)的情況下,這個是屬于企業(yè)的成本預算問題。

直播是視頻流,企業(yè)如果對直播的每一幀的圖片都進行識別,這是非常巨大的數據量,企業(yè)的運營成本自然較高。所以我們一般建議企業(yè)按自己的需求,對于視頻先進行抽幀處理,例如一分鐘視頻的視頻可以按照時間段抽6-15幀左右的圖片進行識別處理之類的來控制成本。

鑒黃存在哪些難點?

云從科技高級算法工程師周翔:

實時視頻影像分析大致通過三大方面進行鑒定:

是否有人物(有:色情概率增加)

人形輪廓的膚色比例(大:色情概率增加)

姿態(tài)分析(性行為姿勢:色情概率增加)

人類對于色情的定義較為廣泛,多種情況下對于色情的鑒定標準也會有不同。在這基礎上其實對于黃色和非黃色圖片的區(qū)分,有時候不是特別明顯,很難判斷。舉個通俗的例子,赤裸上身的男子照片(屬于膚色比例大),這種圖片本質上屬于非黃色圖片,但很多時候,因為訓練數據里有類似圖片被判定為黃色圖像,存在判錯的問題。因此需要利用大量樣本去不斷地訓練它,讓機器不斷糾正,學習更多特征避免這種“低級錯誤”。

這也正是上面提到部分CV公司不涉入鑒黃業(yè)務的原因,因為一直需要大量樣本去不斷訓練、糾正,工程量挺大。

鑒黃的數據訓練過程是什么樣的?

圖普科技工程師:

通俗講,可以把深度學習理解為一個空白的大腦,海量數據就是灌輸進來的經驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎, 讓引擎不斷學習,然后把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的。

綜合上述內容,AI科技評論把人工智能鑒黃總結為以下幾點:

實時視頻影像分析大致要從三個方向鑒定:是否有人物、人形輪廓的膚色比例、姿態(tài)分析。

直播/視頻和圖片鑒黃區(qū)別不大,把動態(tài)視頻解碼為圖片幀就與圖片沒差了。視頻鑒黃不會對每一幀進行識別,一般是從固定時間段里抽取幾幀進行識別。

黃色的圖片和視頻幀最好達到十萬的量級,深度學習才能跑起來。而訓練小批量數據一般采用傳統(tǒng)的特征分析加分類器算法來做,但效果和精度不如深度學習。

屏蔽、刪除或者禁播等方面的處理,主要是看業(yè)務方,可以選擇由機器自動處理或者人工介入。

最后,鑒黃的棘手之處主要是難以掌握色情和非色情的臨界點,機器容易把正常圖片(如男生上身半裸圖片)誤判為色情圖片,因此需要大量的數據不斷去訓練和糾正,是個慢熬的苦差事,這也是部分CV公司不涉入鑒黃業(yè)務的一大原因。

0

玩家點評 0人參與,0條評論)

收藏
違法和不良信息舉報
分享:

熱門評論

全部評論

他們都在說 再看看
3DM自運營游戲推薦 更多+