歡迎光臨
我們一直在努力

人工智能太容易學壞,該怎麼辦?

2016年3月微軟推出Tay時,非常看好這款人工智能支持的“聊天機器人”。 跟人們之前在電商網站上接觸過的文字聊天程序一樣,Tay也可以回答文字問題,從而在推特和其他社交媒體上與公眾交流。  

但Tay功能更強大,不僅能回答事實性問題,還可以進行更複雜的交流,即加入了情感因素。 Tay能表現出幽默感,像朋友一樣跟用戶說笑。 設計者特地讓Tay模仿十幾歲少女的俏皮口吻。 如果推特的用戶問Tay父母是誰,她可能回答說:“哦,是微軟實驗室的一群科學家。按你們的概念裡他們就是我父母。”如果有人問Tay過得怎樣,她還可能吐槽 說:“天吶,今天可累死我了。” 

最有趣的一點是,隨著與越來越多人交談,Tay問答時會越發熟練。 宣傳材料中提到:“你跟Tay聊得越多,她就越聰明,體驗也會個人化。”簡單點說,Tay具有人工智能最重要的特點,即隨時間越來越聰明,越來 越高效,提供的幫助也越來越大。  

但沒人想到網絡噴子的破壞性如此之強。  

發現Tay會學習模仿交流對象的話之後,網上一些心懷惡意的人聊天時故意說一些種族主義、歧視同性戀等攻擊言論。 沒過幾個小時,Tay在推特賬號上已是髒話連篇,而且全部公開。 “主持人瑞奇·傑維斯向無神論者阿道夫·希特勒學習了極權主義。”Tay在一條推文裡說,像極了推特上專事造謠誹謗的假新聞。 如果問Tay怎麼看時任總統奧巴馬,她會說奧巴馬像猴子。 如果問她大屠殺事件,她會說沒發生過。  

沒到一天,Tay已經從友好的鄰家女孩變成滿口髒話的小太妹。 上線不到24小時,微軟就宣布下線產品並公開道歉。  

微軟研究團隊完全沒想到事情會如此轉折,也令人驚訝。 “系統上線時,我們並沒有想到進入現實世界會怎樣。”微軟研究和人工智能總監艾瑞克·霍維茨近日接受采訪時告訴《財富》雜誌。  

Tay項目崩潰之後,霍維茨迅速讓高級團隊研究“自然語言處理”項目,也是Tay對話核心功能,尋找問題根源。 團隊成員迅速發現,與聊天程序相關的最佳基本行為遭到忽視。 在Tay之前更基礎版本的軟件裡,經常有屏蔽不良表述的協議,但並沒有保護措施限制Tay可能學習發散的數據。  

霍維茨認為,現在他終於可以“坦然分析”Tay案例,這已經變成微軟發展過程中的重要教訓。 如今微軟在全球推出成熟得多的社交聊天機器人,包括印度的Ruuh、日本和印度尼西亞的Rinna。 在美國市場,微軟推出了Tay的姊妹聊天軟件Zo。 有些則跟蘋果的Siri和亞馬遜的Alexa一樣,進化到通過語音交互。 中國市場的聊天機器人叫小冰,已經開始“主持”電視節目,向便利店顧客發送購物建議。  

然而這次微軟明顯謹慎許多。 霍維茨解釋說,現在機器人推出比較慢,而且會認真觀察軟件發展過程中與大眾互動情況。 不過微軟也清醒地意識到,即便人工智能技術在兩年裡可能發展迅速,但管理機器人行為的工作永無止境。 微軟員工一直在監視導致聊天機器人行為變化的對話。 此類對話也不斷出現。 舉例來說,Zo上線頭幾個月裡就遇到各種狀況,調整又調整,Zo曾經叫微軟旗艦產品Windows軟件“間諜軟件”,還說伊斯蘭教經典《古蘭經》“非常暴力”。  

當然了,未來機器人並不會像Tay和Zo一樣。 這些都是相對原始的程序,只是各項研究裡比較花哨的部分,可從中一窺人工智能可能達到的程度。 從軟件的缺陷能看出,哪怕只部分應用人工智能,軟件的能力和潛在隱患都會放大。 雖然商業世界已經準備好未來更廣泛應用人工智能,現在軟件存在問題也意味著更多潛在風險,讓技術人員寢食難安。  

“做好最完善的準備,然後希望紕漏越來越少。”霍維茨表示。 隨著各公司將人工智能提升到重要戰略地位,如何確保萬無一失就非常緊迫。  

幾乎所有人都相信,當前我們在企業人工智能大爆發前夜。 研究公司IDC預計,到2021年,企業每年將在人工智能相關產品上花費522億美元。 經濟學家和分析師都認為,相關投資屆時可以實現數十億美元的成本節約和收益。 其中一些收益將來自崗位壓縮,更多則來自產品與客戶、藥品與病人,解決方案與問題之間的高效匹配。 諮詢公司普華永道就預計,到2030年,人工智能可為全球經濟貢獻多達15.7萬億美元,比現在中國和印度的總產值加起來還多。  

人工智能技術之所以流行,主要因為“深度學習”技術推進。 利用深度學習之後,企業可以在網絡中輸入大量信息,迅速識別模式,而且耗費人工培訓的時間減少。 Facebook、谷歌、微軟、亞馬遜和IBM等巨頭都已在產品上應用深度學習技術。 舉例來說,蘋果的Siri和谷歌的語音助手Assistant應用深度學習技術後,可在用戶說話之後識別並回應。 亞馬遜主要利用深度學習直觀檢查大量通過雜貨店派送的產品。  

不久的將來,各種規模的公司都會希望通過應用深度學習軟件挖掘數據,尋找人眼很難發現的寶貝。 人們希望出現人工智能係統掃描數千張X光圖像,從而更迅速發現疾病;或自動篩選多份簡歷,為焦頭爛額的人力資源員工節省時間。 在科技主義者的設想中,公司可以用人工智能篩選過去多年的數據,更好地預測下一次大賣的機會。 藥業巨頭可以削減研發暢銷藥的時間。 而汽車保險公司也能掃描記錄數万億字節的事故報告,實現自動索賠等。  

儘管人工智能支持系統潛力巨大,但也有黑暗一面。 首先,系統決策水平受到人類提供數據限制。 開發者雖然不斷學習,用來培訓深度學習系統的數據卻並不中立。 數據很容易體現出開發者的偏見,不管有意還是無意。 有時數據還會受歷史影響,形成的趨勢和模式體現出持續數百年的歧視觀點。 成熟的算法掃描歷史數據庫後可能得出結論,白人男性最有可能當上首席執行官。 算法卻意識不到,如果不是白人男性幾乎沒機會當上首席執行官,情況直到最近才有改變。 無視偏見是人工智能技術的一項根本缺陷,雖然高管和工程師在談起該問題時極為謹慎,也都說得比較官方,但很明顯他們都很重視這一問題。  

當前應用的強大算法“沒有為所謂公平進行優化,”加州大學伯克利分校副教授迪爾德麗·穆里根表示,她主要研究技術倫理。 “只存在為完成某項任務優化。”人工智能以前所未有的速度將數據轉化為決策,但穆里根表示, 科學家和倫理學家發現很多情況下“數據並不公平” 。  

讓問題更加複雜的是,深度學習比之前應用的傳統算法更加複雜,即便讓經驗最豐富的程序員理解人工智能係統做出某項決策的邏輯都十分困難。 在Tay的例子裡,人工智能產品不斷發生變化,開發者已無法理解也無法預測為何出現某些行為。 由於系統的開發者和用戶都在拼命保密數據和算法,而且擔心專利技術洩露導致競爭受損,外部監測機構也很難發現系統裡存在什麼問題。  

類似裝在黑匣子裡的秘密技術已在不少公司和政府部門應用,讓很多研究者和活躍人士非常擔心。 “這些可不是現成的軟件,可以隨便買來,然後說‘啊,現在終於能在家完成會計工作了。’”微軟首席研究員兼紐約大學AI NOW研究所聯合負責人凱特·克勞福德表示。 “這些都是非常先進的系統,而且會影響核心社會部門。” 

雖然猛一下可能想不起,但大多人還是經歷過至少一次人工智能崩潰案例:2016年美國大選前期,Facebook的新聞推送中出現了假新聞。  

社交媒體巨頭Facebook和數據科學家並沒有編造故事。 新聞信息流的開發機制並不會區分“真”和“假”,只會根據用戶個人口味推動個性化內容。 Facebook沒公開算法具體信息(也涉及專利問題),但承認計算時會參考其他近似口味用戶閱讀和分享的內容。 結果是:由於適合流傳的假新聞不斷出現,好友們又喜歡看,數百萬人的新聞信息流裡都出現了假新聞。  

Facebook的例子說明個人選擇與人工智能發生惡性互動的情況,但研究者更擔心深度學習閱讀並誤讀整體數據。 博士後提米特·葛布魯曾在微軟等公司研究算法倫理,她對深度學習影響保險市場的方式很擔心,因為在保險市場上人工智能與數據結合後可能導致少數群體受到不公待遇。 舉個例子,想像有一組汽車事故索賠數據。 數據顯示市中心交通事故率比較高,由於人口密集車禍也多。 市中心居住的少數群體人數比例也相對更高。  

如果深度學習軟件裡嵌入了相關聯繫再篩選數據,可能“發現”少數族裔與車禍之間存在聯繫,還可能對少數族裔司機貼上某種標籤。 簡單來說,保險人工智能可能出現種族偏見。 如果系統通過回顧市中心附近車禍現場的照片和視頻進一步“培訓”,人工智能更有可能得出結論認為,在涉及多名司機的事故中,少數族裔司機過錯可能更大。 系統還可能建議向少數族裔司機收取更高保費,不管之前駕駛記錄如何。  

要指出一點,保險公司都聲稱不會因為種族區別對待或收取不同保費。 但對市中心交通事故的假設顯示,看似中立的數據也可能被人工智能係統吸收並解讀,從而導致新的不平等。  

此外,葛布魯指出,由於深度學習系統決策基於層層疊疊的數據,人工智能軟件決策時工程師都不明白其中原因和機制。 “這些都是我們之前沒想過的,因為人類剛剛開始發現基礎算法裡存在的偏見。”她表示。  

“當代人工智能軟件與早期軟件不同之處在於,現在的系統可以 獨立作出具有法律意義的決策 。 ”馬特·謝爾勒表示,他在門德爾松律師事務所擔任勞動及就業律師,對人工智能頗有研究。謝爾勒開始研究該領域時發現關鍵結果出台過程中沒有人類參與,他很 擔心。如果由於數據存在紕漏,深度學習指導下的X光忽視一位超重男性體內的腫瘤,有人負責麼?“有沒有人從法律角度看待這些問題? ”謝爾勒問自己。 

隨著科技巨頭們準備將深度學習技術嵌入其客戶商業軟件,上述問題便從學術界所討論的“假如”命題成為了急需考慮的事情。 2016年,也就是Tay出現問題的那一年,微軟組建了一個名為Aether的內部機構,由艾瑞克·霍維茨擔任主席。 這是一個跨學科部門,由工程、研究、政策和法律團隊的成員構成,機器學習偏見是其重點研究的議題之一。

霍維茨在描述該部門所討論的一些話題時若有所思地說:

“微軟對於面部識別之類的軟件是否應該用於敏感領域是否已經有了定論,例如刑事審判和監管。人工智能技術是否已經足夠成熟,並用於這一領域,亦或由於失敗率依然非常高, 因此人們不得不慎而又慎地思考失敗帶來的代價?” 

杰奎因·奎諾內羅·坎德拉是Facebook應用機器學習部門的負責人,該部門負責為公司打造人工智能技術。 在眾多其他的功能當中,Facebook使用人工智能技術來篩除用戶新聞推送中的垃圾信息。 公司還使用這一技術,根據用戶喜好來提供故事和貼文,而這也讓坎德拉的團隊幾近陷入假新聞危機。 坎德拉將人工智能稱之為“歷史加速器”,因為該技術“能夠讓我們打造優秀的工具,從而提升我們的決策能力。”但是他也承認,“正是在決策的過程中,大量的倫理問題 接踵而至。” 

Facebook在新聞推送領域遇到的難題說明,一旦產品已經根植於人工智能係統,要解決倫理問題是異常困難的。 微軟也曾通過在算法應忽略的術語黑名單中添加一些侮辱性詞語或種族綽號,推出了Tay這個相對簡單的系統。 但此舉無法幫助系統分辨“真”“假”命題,因為其中涉及眾多的主觀判斷。 Facebook的舉措則是引入人類調解員來審查新聞信息,但此舉讓公司吃上了審查機構的官司。 如今,Facebook所建議的一個舉措只不過是減少新聞推送中顯示的新聞數量,轉而突出嬰兒照和畢業照,可謂是以退為進。  

這一挑戰的關鍵之處在於: 科技公司所面臨的兩難境地並不在於創建算法或聘請員工來監視整個過程,而是在於人性本身。 真正的問題並不在於技術或管理,而是關乎哲學。

伯克利倫理學教授迪爾德麗·穆里根指出,計算機科學家很難將“公平”編入軟件,因為公平的意義會因人群的不同而發生變化。 穆里根還指出,社會對於公平的認知會隨著時間的變化而改變。 而且對於大家廣泛接受的理想狀態的“公平”理念,也就是社會決策應體現社會每位成員的意志,歷史數據存在缺陷和缺失的可能性尤為突出。  

微軟Aether部門的一個思想實驗便揭示了這一難題。 在這個實驗中,人工智能技術對大量的求職者進行了篩選,以挑選出適合高管職務的最佳人選。 編程人員可以命令人工智能軟件掃描公司最佳員工的性格特徵。 雖然結果與公司的歷史息息相關,但很有可能所有的最佳僱員,當然還有所有最高級別的高管,都是白人。 人們也有可能會忽視這樣一種可能性,公司在歷史上僅提拔白人,或公司的文化便是如此,即少數族群或女性會有被公司冷落的感受,並在得到提升之前離開公司。  

任何了解公司歷史的人都知曉這些缺陷,但是大多數算法並不知道。 霍維茨稱,如果人們利用人工智能來自動推薦工作的話,那麼“此舉可能會放大社會中人們並不怎麼引以為榮的一些偏見行為”,而且是不可避免的。  

谷歌云計算部門的人工智能首席科學家李飛飛表示, 技術偏見“如人類文明一樣由來已久” ,而且存在於諸如剪刀這種普通的事物當中。 她解釋說:“數個世紀以來,剪刀都是由右撇子的人設計的,而且使用它的人大多都是右撇子。直到有人發現了這一偏見之後,才意識到人們有必要設計 供左撇子使用的剪刀。” 全球人口僅有約10%是左撇子,作為人類的一種天性,占主導地位的多數人群往往會忽視少數人群的感受。  

事實證明,人工智能係統最近所犯的其他最為明顯的過錯也存在同樣的問題。 我們可以看看俄羅斯科學家利用人工智能係統在2016年開展的選美大賽。 為參加競賽,全球數千名人士提交了其自拍照,期間,計算機將根據人們臉部對稱性等因素來評價其美貌。  

然而,在機器選出的44名優勝者當中,僅有一位是深色皮膚。 這一結果讓全球一片嘩然,競賽舉辦方隨後將計算機的這一明顯偏見歸咎於用於培訓電腦的數據組,因為這些數據組中的有色人種照片並不多。 計算機最終忽視了那些深色皮膚人種的照片,並認為那些淺膚色的人種更加漂亮,因為他們代表著多數人群。  

這種因忽視而造成的偏見在深度學習系統中尤為普遍,在這些系統中,圖片識別是培訓過程的重要組成部分。 麻省理工大學媒體實驗室的喬伊·布沃拉姆維尼最近與微軟研究員葛布魯合作,撰寫了一篇研究性別分辨技術的論文,這些技術來自於微軟、IBM和中國的曠視科技。 他們發現,這些技術在識別淺膚色男性照片時的精確度比識別深膚色女性更高。  

此類算法空白在線上選美比賽中看起來可能是微不足道的事情,但葛布魯指出,此類技術可能會被用於更加高風險的場景。 葛布魯說:“試想一下,如果一輛自動駕駛汽車在看到黑人後無法識別,會出現什麼後果。想必後果是非常可怕的。” 

葛布魯·布沃拉姆維尼的論文激起了不小的浪花。 微軟和IBM均表示,公司已採取針對性的措施來完善其圖片識別技術。 儘管這兩家公司拒絕透露其舉措的詳情,但正在應對這一問題的其他公司則讓我們窺見瞭如何利用科技來規避偏見。  

當亞馬遜在部署用於篩除腐爛水果的算法時,公司必須解決抽樣偏見問題。 人們會通過研究大量的圖片數據庫來培訓視覺辨認算法,其目的通常是為了識別,例如,草莓“本應”具有的模樣。 然而,正如你所預料的那樣,與完好漿果光鮮亮麗的照片相比,腐爛的漿果相對較為稀少。 而且與人類不同的是, 機器學習算法傾向於不計算或忽視它們,而人類的大腦則傾向於注意這些異常群體,並對其做出強烈反應。  

亞馬遜的人工智能總監拉爾夫·荷布里奇解釋道,作為調整,這位在線零售巨頭正在測試一項名為過採樣的計算機科學技術。 機器學習工程師可通過向未充分代表的數據分配更大的統計學“權重”,來主導算法的學習方式。 在上述案例中便是腐爛水果的照片。 結果顯示,培訓後的算法更為關注變質食物,而不是數據庫中可能建議的食品關聯性。  

荷布里奇指出,過採樣也可被應用於學習人類的算法。 荷布里奇說:“年齡、性別、種族、國籍,這些都是人們特別需要測試採樣偏見的領域,以便在今後將其融入算法。”為了確保用於識別照片人臉面部所使用的算法並 不會歧視或忽視有色、老齡或超重人士,人們可以為此類個人的照片增加權重,以彌補數據組所存在的缺陷。  

其他工程師正在專注於進一步“追根溯源”——確保用於培訓算法的基本數據具有包容性,且沒有任何偏見。 例如,在圖形識別領域,在錄入計算機之前,人們有必要對用於培訓深度學習系統的數百萬圖片進行審核和標記。 數據培訓初創企業iMerit首席執行官雷德哈·巴蘇解釋道,公司遍布於全球的1400多名訓練有素的員工會代表其客戶,以能夠規避偏見的方式對照片進行標記。 該公司的客戶包括Getty Images和eBay。  

巴蘇拒絕透露這種標記方式是否適合標記人像圖片,但她介紹了其他的案例。 iMerit在印度的員工可能會覺得咖哩菜不是很辣,而公司位於新奧爾良的員工可能會認為同樣的菜“很辣”。 iMerit會確保這兩項信息均被錄入這道菜照片的標記中,因為僅錄入其中的一個信息會讓數據的精確性打折扣。 在組建有關婚姻的數據集時,iMerit將收錄傳統的西式白婚紗和多層蛋糕圖片,同時還會收錄印度或非洲精心策劃、色彩絢麗的婚禮。  

iMerit的員工以一種不同的方式在業界脫穎而出。 巴蘇指出:公司會聘用擁有博士學位的員工,以及那些受教育程度不高、較為貧困的人群,公司53%的員工都是女性。 這一比例能夠確保公司在數據標記過程中獲得盡可能多的觀點。 巴蘇表示:“良好的倫理政策不僅僅包含隱私和安全,還涉及偏見以及我們是否遺漏了某個觀點。”而找出這個遺漏的觀點已被更多科技公司提上了戰略議程。

例如,谷歌在6月宣布,公司將在今年晚些時候於加納的阿格拉開設人工智能研究中心。 兩位谷歌工程師在一篇博文上寫道:“人工智能在為世界帶來積極影響方面有著巨大的潛力,如果在開發新人工智能技術時能夠得到全球各地人士的不同觀點,那麼這一潛力將 更大。” 

人工智能專家還認為,他們可以通過讓美國從事人工智能行業的員工更加多元化,來應對偏見,而多元化問題一直是大型科技公司的一個障礙。 谷歌高管李飛飛最近與他人共同創建了非營利性機構AI4ALL,以面向女孩、婦女和少數群體普及人工智能技術和教育。 該公司的活動包括一個夏令營計劃,參與者將到訪頂級大學的人工智能部門,與導師和模範人物建立聯繫。 總之,AI4ALL執行董事苔絲·波斯內表示:“ 多樣性的提升有助於規避偏見風險。 ” 

然而,在這一代更加多元化的人工智能研究人員進入勞動力市場數年之前,大型科技公司便已然將深度學習能力融入其產品中。 而且即便頂級研究人員越發意識到該技術的缺陷,並承認他們無法預知這些缺陷會以什麼樣的方式展現出來,但他們認為人工智能技術在社會和金融方面的效益,值得他們繼續向前邁進。  

Facebook高管坎德拉說:“我認為人們天生便對這種技術的前景持樂觀態度。” 他還表示,幾乎任何數字技術都可能遭到濫用,但他同時也指出:“我並不希望回到 上個世紀50年代,體驗當時落後的技術,然後說:’不,我們不能部署這些技術,因為它們可能會被用於不良用途。’” 

微軟研究負責人霍維茨表示,像Aether團隊這樣的部門將幫助公司在潛在的偏見問題對公眾造成負面影響之前便消除這些偏見。 他說:“我認為,在某項技術做好投入使用的準備之前,沒有人會急著把它推向市場。”他還表示,相比而言,他更關心“不作為所帶來的 倫理影響。”他認為,人工智能可能會降低醫院中可預防的醫療失誤。 霍維茨詢問道:“你的意思是說,你對我的系統偶爾出現的些許偏見問題感到擔憂嗎?如果我們可以通過X光拍片解決問題並拯救眾多生命,但依然不去使用X光, 倫理何在?” 

監督部門的反映是:說說你所做的工作。 提升人工智能黑盒系統所錄入數據的透明度和公開度,有助於研究人員更快地發現偏見,並更加迅速地解決問題。 當一個不透明的算法可以決定某個人是否能獲得保險,或該人是否會蹲監獄時,麻省理工大學研究人員布沃拉姆維尼說道:“ 非常重要的一點在於,我們必須嚴謹地去測試這些系統,而且需要確保一定的透明度。 ” 

確實,很少有人依然持有“人工智能絕對可靠”的觀點,這是一個進步。 谷歌前任人工智能公共政策高管蒂姆·黃指出,在互聯網時代初期,科技公司可能會說,他們“只不過是一個代表數據的平台而已”。 如今,“這一理念已經沒有市場”。

*文章為作者獨立觀點,不代表虎嗅網立場

本文由 財富中文網© 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接:https://www.huxiu.com/article/252313.html
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!

未經允許不得轉載:頭條楓林網 » 人工智能太容易學壞,該怎麼辦?