2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄,隨著數(shù)據(jù)標(biāo)注這一行業(yè)被越來越多的人所熟知,之前關(guān)于數(shù)據(jù)標(biāo)注我們也講過很多,今天咱們從數(shù)據(jù)標(biāo)注本身出發(fā),說說數(shù)據(jù)標(biāo)注這個(gè)行業(yè)。
一、什么是數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是人工智能產(chǎn)業(yè)的基礎(chǔ),是機(jī)器感知現(xiàn)實(shí)世界的起點(diǎn)。從某種程度上來說,沒有經(jīng)過標(biāo)注的數(shù)據(jù)就是無用數(shù)據(jù),美國加州科技大學(xué)校長(zhǎng)秦志剛教授在接受科技日?qǐng)?bào)記者采訪時(shí)表示,機(jī)器識(shí)別事物主要通過物體的一些特征。被識(shí)別的物體還需要通過數(shù)據(jù)標(biāo)注才能讓機(jī)器知道這個(gè)物體是什么。
二、數(shù)據(jù)標(biāo)注的工作內(nèi)容
人工智能就是讓機(jī)器具備人類的思維和行為方式,而數(shù)據(jù)標(biāo)注就是通過人類標(biāo)注正確的數(shù)據(jù)樣本,讓機(jī)器學(xué)習(xí)成長(zhǎng)的一種方式。數(shù)據(jù)標(biāo)注師的工作就是對(duì)圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容進(jìn)行標(biāo)注,使用的標(biāo)注工具通常有2D框、3D框、點(diǎn)標(biāo)注、線標(biāo)注、語義分割等等。
三、常見的數(shù)據(jù)標(biāo)注類型
數(shù)據(jù)標(biāo)注的類型非常多,比如文本分類,圖片拉框,語音轉(zhuǎn)寫,人像打點(diǎn)等。下來我們就幾個(gè)常見的標(biāo)注業(yè)務(wù)進(jìn)行簡(jiǎn)單的講解。
1.圖像的拉框/打點(diǎn)
圖像標(biāo)注的是最常見的一種標(biāo)注形式,且對(duì)標(biāo)注人員的要求不高。計(jì)算機(jī)需要看到人類眼睛看到的東西。例如,人類有識(shí)別和分類物體的能力。同樣,我們可以使用計(jì)算機(jī)視覺來解釋它接收到的視覺數(shù)據(jù)。這就是圖像標(biāo)注的作用。
常見的領(lǐng)域:人體拉框、車輛車牌、機(jī)械影像等主要應(yīng)用在人體識(shí)別、物體識(shí)別等領(lǐng)域。
2.語音轉(zhuǎn)寫
語言標(biāo)注與生活中的眾多方面息息相關(guān)。語音轉(zhuǎn)寫指聽一段語音,語音標(biāo)注即標(biāo)注人員把所聽到語音的內(nèi)容轉(zhuǎn)錄出來形成所對(duì)應(yīng)的“文字”,并不斷修正語音和文字之間的誤差。
語音標(biāo)注常見的領(lǐng)域:客服錄音語音標(biāo)注、即時(shí)通訊工具語音標(biāo)注等。主要應(yīng)用于語音識(shí)別領(lǐng)域。
3.文本標(biāo)注
文本標(biāo)注指將文字、符號(hào)在內(nèi)的文本進(jìn)行標(biāo)注,讓計(jì)算機(jī)能夠讀懂識(shí)別,從而應(yīng)用于人類的生產(chǎn)生活領(lǐng)域!
文本標(biāo)注的常見領(lǐng)域:文本標(biāo)注應(yīng)用范圍很廣泛,例如客服行業(yè)、金融行業(yè)、醫(yī)療行業(yè)等。
應(yīng)用類型主要有數(shù)據(jù)清洗、語義識(shí)別、實(shí)體識(shí)別、場(chǎng)景識(shí)別、情緒識(shí)別、應(yīng)答識(shí)別等。
4.OCR
OCR是光學(xué)字符識(shí)別的縮寫,OCR技術(shù)簡(jiǎn)單來說就是將文字信息轉(zhuǎn)換為圖像信息,然后再利用文字識(shí)別技術(shù)將圖像信息轉(zhuǎn)化為可以使用的輸入技術(shù)。其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,將人眼的能力延伸到機(jī)器上。
目前OCR文字識(shí)別行業(yè)上主要應(yīng)用于票據(jù)、身份驗(yàn)證、內(nèi)容審核、教育、保險(xiǎn)、醫(yī)療、交通以及拍照識(shí)別/翻譯等領(lǐng)域上。
5.3D拉框/打點(diǎn)
3D標(biāo)注用于從2D圖片和視頻中獲得空間視覺模型,測(cè)量物體間的相對(duì)距離和得到滅點(diǎn),目標(biāo)物體包括車輛、行人、廣告標(biāo)志和樹木等。
四、數(shù)據(jù)標(biāo)注行業(yè)及數(shù)據(jù)標(biāo)注崗位淺析
行業(yè)持續(xù)性:
如果將人工智能比作“火箭”,那么,數(shù)據(jù)就是助推火箭上升的“燃料”,人工智能與數(shù)據(jù)標(biāo)注的關(guān)系密不可分,人工智能無論是在企業(yè)需求還是在產(chǎn)業(yè)鏈都是穩(wěn)定增長(zhǎng),數(shù)據(jù)標(biāo)注行業(yè)基本會(huì)隨之發(fā)展的。
工作多樣性:
不同的平臺(tái)及行業(yè)對(duì)于數(shù)據(jù)標(biāo)注的規(guī)則和要求各有不同,因此標(biāo)注行業(yè)會(huì)隨著訂單去接觸到新鮮的事物,激發(fā)學(xué)習(xí)能力,相比普通的職業(yè)可能會(huì)更早地接觸到未來各行各業(yè)的發(fā)展方向,及未來生活的真實(shí)場(chǎng)景,從而有一定的時(shí)間差和信息差的優(yōu)勢(shì),找到更多的機(jī)會(huì)。