">

“數(shù)據(jù)標注”業(yè)務(wù)項目經(jīng)理黃雨晨正在工作。
編者按
當流水線工人變身AI訓練師,當車間轟鳴轉(zhuǎn)為數(shù)據(jù)流動,湖北以產(chǎn)業(yè)鏈的蓬勃生長,給出了“人去哪兒”的響亮回答:就業(yè),正扎根于產(chǎn)業(yè)每一次迭代裂變的新賽道、新場景。即日起,本報開設(shè)專欄“就業(yè)長在產(chǎn)業(yè)上”,敬請關(guān)注。
文/圖 湖北日報全媒記者 劉天縱
一張街景,人類一眼能看出“車、人、紅綠燈、樓房、馬路”;AI看到的只是一堆0—255的像素矩陣。
給數(shù)據(jù)打標,就是給AI“翻譯世界”。數(shù)據(jù)標注師,應(yīng)運而生。
在武漢理工大學科技園,覽易(武漢)智能數(shù)據(jù)服務(wù)有限公司有一支500多人的數(shù)據(jù)標注師隊伍,分布在省內(nèi)外多個城市,平均年齡不到30歲。
27歲的恩施女孩黃雨晨就是其中一員。她2020年入職覽易智能,現(xiàn)已從普通“數(shù)據(jù)標注師”成長為“項目經(jīng)理”。讓人意外的是,她的大學專業(yè)居然是漢語言文學。在數(shù)據(jù)、代碼、算法滿天飛的AI賽道,一名文科生居然擠進了核心崗位。
新手入門不算太難
披著齊肩短發(fā)、戴著黑框眼鏡、穿著休閑T恤、揣著平板電腦和幾本書……在覽易智能門外初見黃雨晨,以為是去圖書館上自習的女大學生。
打開辦公電腦,畫面令人眼前一亮——連片的點狀圖、彩色的標注框、交錯的標記線等,構(gòu)成了一幅幅“賽博”風格的城市街景圖。
“這就是數(shù)據(jù)標注——給文本、圖片、視頻、語音等各類數(shù)據(jù)‘打標簽’‘寫說明’‘加備注’,方便AI大模型學習理解。”黃雨晨解釋道。
AI產(chǎn)業(yè)的三要素分別是數(shù)據(jù)、算力和算法。其中,數(shù)據(jù)是AI的“營養(yǎng)來源”,算力是“肌肉力量”,算法是“思考方式”,數(shù)據(jù)標注就是給AI制造“口糧”,將原始數(shù)據(jù)加工成機器學習算法可識別的內(nèi)容。
比如,一張城市街景圖,需要人用專業(yè)軟件,標注出汽車、行人、道路、紅綠燈、建筑、綠化帶、車道線等各類元素,以訓練AI大模型的“眼力”和“腦力”。
數(shù)據(jù)標注工作好上手嗎?
“只要學習能力強、耐心細致且能熟練操作電腦,上手入門并不算太難。”黃雨晨透露,2020年大學畢業(yè)那年,湖北數(shù)據(jù)標注產(chǎn)業(yè)剛開始興起,從業(yè)人員缺口大,抱著試一試的心態(tài),她向覽易智能投了簡歷。
新手任務(wù)都是入門級的。比如給汽車攝像頭拍攝的照片做標注。這對黃雨晨而言,類似于用專業(yè)軟件“P相片”,這正是女生愛好且擅長的。每張照片上的行人、車輛、道路等元素加起來,大約有60個“標注框”,黃雨晨每天能處理50至60張這樣的照片,成為新職員中的佼佼者。
AI對數(shù)據(jù)“食材”的要求越來越高
精修兩三張照片,或許小有樂趣。若一天要精修幾十乃至上百張照片,難免心生厭倦。想當好數(shù)據(jù)標注師,就要不厭其煩。
“比起照相館的精修相片,數(shù)據(jù)標注圖像的精度要求高多了。”黃雨晨說,入行的第一年,她主要處理二維圖像數(shù)據(jù),即車載攝像頭拍攝的照片。每張照片標注完后,公司會有專門的質(zhì)檢人員來檢查標注質(zhì)量,誤差不能超過1個像素點。
如24英寸的顯示屏,分辨率調(diào)成1920(寬)×1080(高)后,每個像素點長寬不到0.3毫米。黃雨晨標注一個人或一輛車,相當于在像素點“萬花筒”中精準“摳圖”。圖像數(shù)據(jù)標注誤差每提高1%,AI大模型訓練效果就會大打折扣。
黃雨晨稱,數(shù)據(jù)標注師每天的工作按“計件”考核,效率高的人可以多勞多得,標注速度慢、質(zhì)量不高的人,只能花更多的時間和精力來補短板。此外,車企投來的訂單多涉及新車型研發(fā)和排產(chǎn)計劃,要求數(shù)據(jù)標注師每天必須按節(jié)點完成工作任務(wù),一刻也拖不得,所以熬夜加班是常態(tài)。
因業(yè)績突出,黃雨晨一路從數(shù)據(jù)標注師、小組長、項目主管成長為項目經(jīng)理,統(tǒng)籌覽易智能多個項目的培訓、客戶對接、排產(chǎn)、交付等工作。她經(jīng)手的項目類型,也從汽車領(lǐng)域,延展到工業(yè)制造、智能安防、新零售、醫(yī)療、金融等多個行業(yè)。
“AI大模型幾乎每三四個月就迭代一次,市場對數(shù)據(jù)標注的需求越來越大,標注的內(nèi)容也越來越復(fù)雜。”黃雨晨說。
以自動駕駛為例,黃雨晨參加工作的前幾年,主要標注車載攝像頭拍攝的二維圖像數(shù)據(jù),框出圖像中的車輛、行人、交通標志等目標。
由于二維圖像數(shù)據(jù)無法感知距離和空間,由激光雷達、毫米波雷達生成的三維點云數(shù)據(jù)標注快速發(fā)展。
然而,自動駕駛車輛在行駛過程中,周遭環(huán)境是動態(tài)的,三維點云數(shù)據(jù)僅提供了靜態(tài)的空間場景,因此包含時序信息的四維標注于2024年開始興起,能更全面地描述物體的運動軌跡、形態(tài)變化以及與環(huán)境之間的互動關(guān)系。
目前,從蔚來、理想、吉利、東風、長安等車企向覽易智能發(fā)來的訂單看,四維點云數(shù)據(jù)標注已成主流。“這說明中國自動駕駛技術(shù)在飛速發(fā)展,AI對數(shù)據(jù)‘食材’的要求越來越高。”黃雨晨說。
幫AI擺脫“精神內(nèi)耗”
黃雨晨將人工智能產(chǎn)業(yè)解構(gòu)為“人工+智能”,AI大模型越來越聰明的背后,是廣大數(shù)據(jù)標注師日以繼夜的默默奉獻。
覽易智能創(chuàng)始人、總經(jīng)理張雪嬌是名“90后”,黃雨晨等數(shù)據(jù)標注師一路成長的艱辛,她看在眼里。
張雪嬌透露,最近幾年,國內(nèi)每年都會新增幾百家數(shù)據(jù)標注企業(yè)。
“企業(yè)要在智力密集型行業(yè)里生存下來,必須有自己的‘技術(shù)護城河’。”張雪嬌介紹,借助武漢理工大學在汽車產(chǎn)業(yè)領(lǐng)域的背景優(yōu)勢,覽易智能從廣大車企的數(shù)據(jù)標注需求破題,自主研發(fā)了“l(fā)ine”數(shù)據(jù)標注與管理平臺,可實現(xiàn)數(shù)據(jù)“采集—清洗—脫敏—標注—質(zhì)檢—訓練”等一站式處理。
“l(fā)ine”平臺最立竿見影的效果是提升數(shù)據(jù)標注效率和質(zhì)量,為數(shù)據(jù)標注師減負。
以四維點云圖像數(shù)據(jù)為例,每張點云圖像包含100至500幀畫面,每一幀畫面都至少要標注上百個點、線、框。若讓人純手工標注,幾個小時離不開座位。
而“l(fā)ine”平臺能自動完成70%以上的預(yù)標注任務(wù),支持多人、多團隊協(xié)同標注,并能提供智能質(zhì)檢功能。數(shù)據(jù)標注師需要做的就是幫AI查缺補漏,提升整體標注效率30%以上。
擁有高質(zhì)量的數(shù)據(jù)集,才能訓練出高質(zhì)量的AI大模型。加工者越細致、越專業(yè),數(shù)據(jù)集的質(zhì)量越高。就像醫(yī)療影像數(shù)據(jù),主任醫(yī)師的手工標注質(zhì)量,大概率高于醫(yī)學院大學生。
目前,金融、醫(yī)療、具身智能等行業(yè)已成為企業(yè)新的訂單增長點。張雪嬌認為,數(shù)據(jù)標注行業(yè)已進入高速發(fā)展期,對人才需求量巨大,湖北作為科教大省,擁有得天獨厚的優(yōu)勢。覽易智能成立5年來,協(xié)同相關(guān)高校開展技能培訓,已累計培訓數(shù)據(jù)標注人才上萬人次,讓就業(yè)真正“長”在了產(chǎn)業(yè)上。
Copyright ? 2001-2025 湖北荊楚網(wǎng)絡(luò)科技股份有限公司 All Rights Reserved
互聯(lián)網(wǎng)新聞信息許可證 4212025003 -
增值電信業(yè)務(wù)經(jīng)營許可證 鄂B2-20231273 -
廣播電視節(jié)目制作經(jīng)營許可證(鄂)字第00011號
信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證 1706144 -
互聯(lián)網(wǎng)出版許可證 (鄂)字3號 -
營業(yè)執(zhí)照
鄂ICP備 13000573號-1
鄂公網(wǎng)安備 42010602000206號
版權(quán)為 荊楚網(wǎng) www.cnhubei.com 所有 未經(jīng)同意不得復(fù)制或鏡像