偏見(jiàn)在AI領(lǐng)域是一個(gè)很棘手的話(huà)題:有些偏見(jiàn)是有益的,例如噪聲數(shù)據(jù)可以增加模型的魯棒性,有些偏見(jiàn)是有害的,例如傾向?qū)τ猩朔N識(shí)別錯(cuò)誤。
而且,當(dāng)我們得到一個(gè)不完美的模型的時(shí)候,其中的數(shù)據(jù)集到底存在什么偏見(jiàn)?這些偏見(jiàn)是如何產(chǎn)生的?
谷歌的PAIR (People + AI Research)團(tuán)隊(duì)最近發(fā)表了一篇博文,用一個(gè)很簡(jiǎn)單有趣的例子討論了這些問(wèn)題。
假設(shè)我們擁有如下所示的不同形狀的數(shù)據(jù)集,它們對(duì)應(yīng)的標(biāo)簽是有無(wú)陰影,如下圖。
利用頁(yè)面上的交互式分類(lèi)器,可以分類(lèi)出如下的結(jié)果,并得出相應(yīng)的準(zhǔn)確性。
模型并不完美,為了對(duì)結(jié)果進(jìn)行糾正,你可能想知道模型正在犯什么錯(cuò)誤,或者,數(shù)據(jù)存在哪種類(lèi)型的偏見(jiàn)?
由于各個(gè)圖形的主要區(qū)別在于形狀,一個(gè)可能的偏見(jiàn)存在于形狀的差別。通過(guò)觀察你可能認(rèn)為三個(gè)最主要的形狀主要是圓、三角形和矩形。為了證實(shí)這個(gè)假設(shè),你要確信你的模型在面對(duì)圓、三角形和矩形的時(shí)候模型的表現(xiàn)能力的一樣的。接下來(lái)我們來(lái)做公正性分析(fairness analysis)。
首先我們需要對(duì)每個(gè)的形狀進(jìn)行標(biāo)注,但是一個(gè)問(wèn)題是,有些形狀并不能很肯定地確定是什么形狀,這時(shí)候有兩種策略,一是把這種形狀判斷為最有可能是圓、三角形和矩形(with their best guess);一種是給出一個(gè)選項(xiàng):上述三種形狀都不是(as "other")。之后我們分析模型對(duì)于每一類(lèi)形狀的分類(lèi)準(zhǔn)確率。該交互式頁(yè)面給了兩種策略的結(jié)果:
策略一:尋找最有可能的形狀:
第一種策略表明分類(lèi)器對(duì)于矩形分類(lèi)的結(jié)果最好,圓次之,三角形最差。不過(guò)這可以表明模型對(duì)三角形存在偏見(jiàn)嗎?我們?cè)陧?yè)面上切換第二種策略。
策略二:上述都不是:
結(jié)果發(fā)生了變化!第二種策略則表明分類(lèi)器對(duì)于三角形和矩形分類(lèi)結(jié)果都最好,圓卻最差。我們對(duì)于偏見(jiàn)的理解因?yàn)槲覀冎贫ǚ诸?lèi)的策略不同而不同,換言之,每一種分類(lèi)方式代表著采取不同的角度看待哪些是重要的分類(lèi)特征。而決定數(shù)據(jù)集和最終模型決策的是你——制定策略的人。也就是每個(gè)數(shù)據(jù)集都代表一種“世界觀”,其收集背后莫不代表著人的意志。
所以,再回過(guò)頭來(lái)想想,還有哪些策略或者規(guī)則的指定可能會(huì)影響我們的對(duì)于公正性的判斷?
對(duì),我們當(dāng)初對(duì)于分類(lèi)的標(biāo)準(zhǔn)是依照形狀,比如圓、三角形或者矩形,這也是我們?nèi)藶槎ǖ臉?biāo)準(zhǔn),如果換成”尖的“或者”圓的“呢?或者“小的”或者“大的”呢?下圖給出了不同評(píng)價(jià)標(biāo)準(zhǔn)下,正確和錯(cuò)誤分類(lèi)的個(gè)體:

圖注:當(dāng)類(lèi)別標(biāo)準(zhǔn)是“尖的”或者“圓的”,以及其它模糊類(lèi)別是“尋找最有可能的形狀”的時(shí)候的分類(lèi)結(jié)果
