“科技巨頭谷歌希望其核心產(chǎn)品能夠從人類(lèi)語(yǔ)言中推斷出含義、回答多部分問(wèn)題,并且看起來(lái)更像Google Assistant的聲音。人工智能的大型語(yǔ)言模型的搜索引擎可提出建議、檢索文檔、回答問(wèn)題并完成廣泛的任務(wù),但依然存在偏見(jiàn)的風(fēng)險(xiǎn)?!?/p>
在谷歌一年一度舉辦的開(kāi)發(fā)者大會(huì)I/O上,這家公司經(jīng)常會(huì)向世人展示令人驚嘆的人工智能。
2016年谷歌推出內(nèi)置Google Assistant的Google Home智能音箱;2018年為企業(yè)接聽(tīng)電話和安排議程的Duplex首次亮相。
按照這一傳統(tǒng),上個(gè)月谷歌首席執(zhí)行官桑達(dá)爾·皮查伊推出LaMDA,一款“可就任何話題展開(kāi)對(duì)話”的人工智能。
皮查伊演示了同紙飛機(jī)及天體冥王星交流是什么感覺(jué)。LaMDA會(huì)用三至四個(gè)句子回應(yīng)每一次問(wèn)詢(xún),就像兩個(gè)人進(jìn)行的自然對(duì)話。
皮查伊說(shuō):“LaMDA將會(huì)慢慢地融入到谷歌其他產(chǎn)品之中,比如Assistant和Workspace及最關(guān)鍵的搜索,LaMDA的自然對(duì)話功能會(huì)使信息和計(jì)算從根本上更易于訪問(wèn)和使用?!?/p>
LaMDA的推出得以一窺Google搜索的未來(lái),未來(lái)的搜索已超越了鏈接列表,并可能改變數(shù)十億人網(wǎng)絡(luò)搜索的習(xí)慣。
以人工智能為主導(dǎo),可推斷人類(lèi)語(yǔ)言的含義,參與到對(duì)話當(dāng)中,并像專(zhuān)家一樣回答由多方面問(wèn)題。
谷歌還推出另一款名為多任務(wù)統(tǒng)一模型(Multitask Unified Model,MUM)的人工智能,可在搜索時(shí)將文本和圖像考慮在內(nèi)。
谷歌副總裁普拉巴卡·拉加表示用戶(hù)在不遠(yuǎn)的將來(lái)可拍下一雙鞋的照片,然后向搜索引擎提問(wèn)能否穿它攀登富士山。
MUM能夠生成75種語(yǔ)言的搜索結(jié)果,谷歌稱(chēng)這樣可以讓它對(duì)世界理解的更為全面。
用戶(hù)提問(wèn)“我爬過(guò)亞當(dāng)斯山了,明年秋天想爬富士山,該怎么做?”后,這樣的搜索同我們今時(shí)今日的搜索表述大不相同,因?yàn)镸UM會(huì)減少查找答案所需的搜索次數(shù)。
MUM既能概括文本也能生成文本;它會(huì)將亞當(dāng)斯山與富士山進(jìn)行比較,并且告知用戶(hù)為富士山之旅可能需要相關(guān)的健身訓(xùn)練、登山裝備推薦及天氣預(yù)報(bào)方面的搜索結(jié)果。
上個(gè)月一篇名為《重新思考搜索:從半吊子到專(zhuān)家》的論文中,谷歌四位工程師將搜索比喻成同人類(lèi)專(zhuān)家對(duì)話。比如目前搜索“紅酒的好處和壞處是什么?”,谷歌會(huì)回復(fù)一個(gè)要點(diǎn)列表。
該論文表示未來(lái)搜索引擎的回復(fù)可能看起來(lái)更像是一段話,比如紅酒可促進(jìn)心血管健康,但會(huì)弄臟你的牙齒,還會(huì)完整顯示提及的信息來(lái)源與鏈接。
回復(fù)是文本形式,但也會(huì)變成口頭回復(fù),就像現(xiàn)在Google Assistant的體驗(yàn)一樣。
但過(guò)度依賴(lài)人工智能破解文本也存在風(fēng)險(xiǎn),因?yàn)檎Z(yǔ)言的微妙復(fù)雜仍讓計(jì)算機(jī)難以理解。
作為生成文本或回復(fù)問(wèn)題等最先進(jìn)人工智能的大型語(yǔ)言模型已顯示出放大偏見(jiàn)、生成不可預(yù)測(cè)或有害文本等傾向。
其中一個(gè)名為OpenAI的GPT-3模型已被用于在動(dòng)畫(huà)角色中創(chuàng)建互動(dòng)故事,但在一款在線游戲中也生成了涉及兒童性場(chǎng)景的文本。
麻省理工學(xué)院、英特爾及Facebook的研究人員發(fā)現(xiàn),大型語(yǔ)言模型表現(xiàn)出基于種族、性別、宗教、職業(yè)的刻板印象。
自然語(yǔ)言處理倫理學(xué)博士、語(yǔ)言學(xué)家拉切爾·塔特曼表示,這些大型語(yǔ)言模型生成的文本會(huì)越來(lái)越具有說(shuō)服力,人們會(huì)相信正跟理解自己所表達(dá)意義的人工智能交談,但其實(shí)它們對(duì)世界并沒(méi)有常識(shí)性的理解。
但人工智能生成對(duì)殘疾人或穆斯林有害的文本或告訴人們?nèi)プ詺r(shí)就會(huì)產(chǎn)生問(wèn)題。
塔特曼回憶起一位圖書(shū)管理員曾經(jīng)教過(guò)自己如何判斷谷歌的搜索結(jié)果是否有效,如果是將大型語(yǔ)言模型同搜索結(jié)合起來(lái),用戶(hù)就得學(xué)會(huì)評(píng)估同AI專(zhuān)家的對(duì)話。
谷歌搜索是一家建立在PageRank之上的公司,PageRank曾是一種算法,由聯(lián)合創(chuàng)始人拉里·佩奇和謝爾蓋·布林在1990年代后期研究創(chuàng)建。
PageRank依賴(lài)于索引,是使用算法對(duì)網(wǎng)站進(jìn)行排序和評(píng)估的過(guò)程。隨著時(shí)間的推移,谷歌又將龐大的事實(shí)庫(kù)知識(shí)圖譜融入到搜索結(jié)果里面。
最近谷歌將語(yǔ)言模型融入到搜索反饋。2019年谷歌曾將一種BERT模型植入到搜索中以回復(fù)對(duì)話式搜索查詢(xún)、建議搜索并對(duì)出現(xiàn)搜索結(jié)果下方的文本概括。
BERT還為微軟的Bing提供搜索結(jié)果。當(dāng)時(shí),谷歌副總裁潘杜·納亞克稱(chēng)這是搜索領(lǐng)域五年來(lái)取得的最大進(jìn)步,也是搜索歷史上最大的飛躍。
BERT的橫空出世使得各科技巨頭展開(kāi)了一場(chǎng)競(jìng)賽,競(jìng)相創(chuàng)造出規(guī)模更大的語(yǔ)言模型,希望語(yǔ)言理解或回答問(wèn)題等方面在GLUE等流行表現(xiàn)排行榜上勝出。
百度推出Ernie,Nvidia推出Megatron,微軟推出T-NLG,OpenAI推出GPT-3。工程師們會(huì)通過(guò)深度學(xué)習(xí)系統(tǒng)中人工智能神經(jīng)元之間的連接參數(shù)變量評(píng)估這些模型。
BERT包含數(shù)億個(gè)參數(shù),GPT-3參數(shù)則高達(dá)1750億。今年一月谷歌公布1萬(wàn)億參數(shù)的語(yǔ)言模型。副總裁拉加稱(chēng)參數(shù)上MUM比BERT強(qiáng)大1000倍。
谷歌研究人員稱(chēng)索引是現(xiàn)代搜索的主力軍,但希望今后通過(guò)利用能理解更多問(wèn)題,更為龐大的語(yǔ)言模型將索引取消。
比如知識(shí)圖譜能就事實(shí)性問(wèn)題提供答案,但只在網(wǎng)絡(luò)的一小部分進(jìn)行訓(xùn)練。如果使用基于更廣泛的網(wǎng)絡(luò)構(gòu)建的語(yǔ)言模型,將使搜索引擎提出建議、檢索文檔、回答問(wèn)題并完成廣泛的任務(wù),這種方法會(huì)帶來(lái)“思維的變革性轉(zhuǎn)變”。
但這樣的模型并不存在。事實(shí)上可能需要?jiǎng)?chuàng)造出通用人工智能,或在信息檢索和機(jī)器學(xué)習(xí)等領(lǐng)域取得進(jìn)步才能實(shí)現(xiàn)。而且,這種新方法還能從多個(gè)角度提供權(quán)威答案,清晰地解釋來(lái)源,且不帶偏見(jiàn)。
谷歌一位發(fā)言人將LaMDA和MUM稱(chēng)為自家公司下一代語(yǔ)言模型研究的一部分,并且表示MUM目前正在進(jìn)行內(nèi)部試驗(yàn)查詢(xún)數(shù)十億個(gè)主題。
Google Research并沒(méi)有為谷歌產(chǎn)品設(shè)定方向,谷歌產(chǎn)品的機(jī)器學(xué)習(xí)通常是作為補(bǔ)充而不是取代現(xiàn)有產(chǎn)品。
谷歌搜索算法的任何變化都將不可避免地影響其核心廣告業(yè)務(wù),該業(yè)務(wù)去年為谷歌創(chuàng)造 1470億美元收入。
搜索顧問(wèn)邁克爾表示關(guān)于MUM登山靴的搜索回復(fù)演示表明,谷歌希望商業(yè)與消費(fèi)者的連接方面發(fā)揮更大作用。
上個(gè)月的另一個(gè)顯著變化是谷歌引入Shopify集成,將170萬(wàn)商家的商品帶到搜索結(jié)果中。外賣(mài)公司DoorDash和Postmates在2019年已進(jìn)入搜索結(jié)果。
谷歌搜索結(jié)果已從由PageRank提供的鏈接列表演變?yōu)閷V告、知識(shí)面板、地圖、視頻和增強(qiáng)現(xiàn)實(shí)納入在內(nèi)。
這樣的轉(zhuǎn)變?cè)斐刹糠秩怂Q(chēng)零點(diǎn)擊搜索(zero-click)的興起。零點(diǎn)擊搜索是指不再點(diǎn)擊網(wǎng)站來(lái)完成網(wǎng)絡(luò)搜索,這樣谷歌能在不需要用戶(hù)離開(kāi)訪問(wèn)的情況下獲得廣告收入。
數(shù)字?jǐn)?shù)據(jù)公司Similarweb估計(jì),去年近三分之二搜索當(dāng)中用戶(hù)都沒(méi)有點(diǎn)擊進(jìn)入到另一個(gè)頁(yè)面;在移動(dòng)設(shè)備上點(diǎn)擊率(click-through rates)格外低。
邁克爾說(shuō):“在我看來(lái),谷歌的野心要比向全世界賣(mài)廣告大多了,他們喜歡連接各方進(jìn)行交易,因此我認(rèn)為這一點(diǎn)得到極大增強(qiáng)。”
通過(guò)自然語(yǔ)言或圖像進(jìn)行搜索可能會(huì)使用戶(hù)的注意力分散,不在關(guān)鍵字上,而且還會(huì)損害價(jià)值數(shù)十億美元的搜索引擎優(yōu)化業(yè)務(wù),目前各大企業(yè)仍競(jìng)相依靠這一業(yè)務(wù)讓自己位于搜索結(jié)果頂部。
一些搜索引擎優(yōu)化公司一直在為自然語(yǔ)言的未來(lái)準(zhǔn)備。
總部位于美國(guó)阿拉巴馬州伯明翰的初創(chuàng)公司Copysmith.ai 通過(guò)GPT-3為網(wǎng)站生成SEO元標(biāo)簽。
首席執(zhí)行官赫恩·奧特蘭表示,谷歌最近的舉措不是一種威脅,而是整個(gè)人工智能領(lǐng)域又向前邁出一步。這表明我們正在朝著正確方向前進(jìn)。
邁克爾表示:谷歌的公布可能需要數(shù)年才能實(shí)現(xiàn),谷歌想要的不僅僅是事實(shí)和鏈接的集合,而是希望自己更像是一位能夠回答復(fù)雜問(wèn)題的專(zhuān)家。唯一的問(wèn)題就是時(shí)間。
谷歌將大型語(yǔ)言模型作為商業(yè)戰(zhàn)略和研究重點(diǎn)的策略在公司內(nèi)部也引發(fā)了沖突。谷歌前AI倫理團(tuán)隊(duì)的兩位前領(lǐng)導(dǎo)人在共同撰寫(xiě)一篇此類(lèi)模型擔(dān)憂的論文后就被迫宣布離職。
此外,大型語(yǔ)言模型會(huì)延續(xù)對(duì)人類(lèi)的偏見(jiàn)和刻板印象,并可能造成氣候變化。
隨著語(yǔ)言模型越來(lái)越龐大,數(shù)據(jù)標(biāo)記的貧乏和管理實(shí)踐的缺失會(huì)釀成更大問(wèn)題。更重要的是,大語(yǔ)言模型對(duì)社會(huì)造成的危險(xiǎn)最有可能施加在邊緣化社區(qū)身上。
今年1月,另一篇抨擊大型語(yǔ)言模型的人工智能研究論文的作者稱(chēng)谷歌法律和政策團(tuán)隊(duì)的干預(yù)“陰險(xiǎn)至極”。
3月,谷歌DeepMind研究人員發(fā)現(xiàn),大型語(yǔ)言模型可通過(guò)傳播刻板印象、散播失業(yè)和虛假信息,在創(chuàng)作者沒(méi)有任何惡意的情況下造成社會(huì)危害。