">

“數據標注”業務項目經理黃雨晨正在工作。
編者按
當流水線工人變身AI訓練師,當車間轟鳴轉為數據流動,湖北以產業鏈的蓬勃生長,給出了“人去哪兒”的響亮回答:就業,正扎根于產業每一次迭代裂變的新賽道、新場景。即日起,本報開設專欄“就業長在產業上”,敬請關注。
文/圖 湖北日報全媒記者 劉天縱
一張街景,人類一眼能看出“車、人、紅綠燈、樓房、馬路”;AI看到的只是一堆0—255的像素矩陣。
給數據打標,就是給AI“翻譯世界”。數據標注師,應運而生。
在武漢理工大學科技園,覽易(武漢)智能數據服務有限公司有一支500多人的數據標注師隊伍,分布在省內外多個城市,平均年齡不到30歲。
27歲的恩施女孩黃雨晨就是其中一員。她2020年入職覽易智能,現已從普通“數據標注師”成長為“項目經理”。讓人意外的是,她的大學專業居然是漢語言文學。在數據、代碼、算法滿天飛的AI賽道,一名文科生居然擠進了核心崗位。
新手入門不算太難
披著齊肩短發、戴著黑框眼鏡、穿著休閑T恤、揣著平板電腦和幾本書……在覽易智能門外初見黃雨晨,以為是去圖書館上自習的女大學生。
打開辦公電腦,畫面令人眼前一亮——連片的點狀圖、彩色的標注框、交錯的標記線等,構成了一幅幅“賽博”風格的城市街景圖。
“這就是數據標注——給文本、圖片、視頻、語音等各類數據‘打標簽’‘寫說明’‘加備注’,方便AI大模型學習理解。”黃雨晨解釋道。
AI產業的三要素分別是數據、算力和算法。其中,數據是AI的“營養來源”,算力是“肌肉力量”,算法是“思考方式”,數據標注就是給AI制造“口糧”,將原始數據加工成機器學習算法可識別的內容。
比如,一張城市街景圖,需要人用專業軟件,標注出汽車、行人、道路、紅綠燈、建筑、綠化帶、車道線等各類元素,以訓練AI大模型的“眼力”和“腦力”。
數據標注工作好上手嗎?
“只要學習能力強、耐心細致且能熟練操作電腦,上手入門并不算太難。”黃雨晨透露,2020年大學畢業那年,湖北數據標注產業剛開始興起,從業人員缺口大,抱著試一試的心態,她向覽易智能投了簡歷。
新手任務都是入門級的。比如給汽車攝像頭拍攝的照片做標注。這對黃雨晨而言,類似于用專業軟件“P相片”,這正是女生愛好且擅長的。每張照片上的行人、車輛、道路等元素加起來,大約有60個“標注框”,黃雨晨每天能處理50至60張這樣的照片,成為新職員中的佼佼者。
AI對數據“食材”的要求越來越高
精修兩三張照片,或許小有樂趣。若一天要精修幾十乃至上百張照片,難免心生厭倦。想當好數據標注師,就要不厭其煩。
“比起照相館的精修相片,數據標注圖像的精度要求高多了。”黃雨晨說,入行的第一年,她主要處理二維圖像數據,即車載攝像頭拍攝的照片。每張照片標注完后,公司會有專門的質檢人員來檢查標注質量,誤差不能超過1個像素點。
如24英寸的顯示屏,分辨率調成1920(寬)×1080(高)后,每個像素點長寬不到0.3毫米。黃雨晨標注一個人或一輛車,相當于在像素點“萬花筒”中精準“摳圖”。圖像數據標注誤差每提高1%,AI大模型訓練效果就會大打折扣。
黃雨晨稱,數據標注師每天的工作按“計件”考核,效率高的人可以多勞多得,標注速度慢、質量不高的人,只能花更多的時間和精力來補短板。此外,車企投來的訂單多涉及新車型研發和排產計劃,要求數據標注師每天必須按節點完成工作任務,一刻也拖不得,所以熬夜加班是常態。
因業績突出,黃雨晨一路從數據標注師、小組長、項目主管成長為項目經理,統籌覽易智能多個項目的培訓、客戶對接、排產、交付等工作。她經手的項目類型,也從汽車領域,延展到工業制造、智能安防、新零售、醫療、金融等多個行業。
“AI大模型幾乎每三四個月就迭代一次,市場對數據標注的需求越來越大,標注的內容也越來越復雜。”黃雨晨說。
以自動駕駛為例,黃雨晨參加工作的前幾年,主要標注車載攝像頭拍攝的二維圖像數據,框出圖像中的車輛、行人、交通標志等目標。
由于二維圖像數據無法感知距離和空間,由激光雷達、毫米波雷達生成的三維點云數據標注快速發展。
然而,自動駕駛車輛在行駛過程中,周遭環境是動態的,三維點云數據僅提供了靜態的空間場景,因此包含時序信息的四維標注于2024年開始興起,能更全面地描述物體的運動軌跡、形態變化以及與環境之間的互動關系。
目前,從蔚來、理想、吉利、東風、長安等車企向覽易智能發來的訂單看,四維點云數據標注已成主流。“這說明中國自動駕駛技術在飛速發展,AI對數據‘食材’的要求越來越高。”黃雨晨說。
幫AI擺脫“精神內耗”
黃雨晨將人工智能產業解構為“人工+智能”,AI大模型越來越聰明的背后,是廣大數據標注師日以繼夜的默默奉獻。
覽易智能創始人、總經理張雪嬌是名“90后”,黃雨晨等數據標注師一路成長的艱辛,她看在眼里。
張雪嬌透露,最近幾年,國內每年都會新增幾百家數據標注企業。
“企業要在智力密集型行業里生存下來,必須有自己的‘技術護城河’。”張雪嬌介紹,借助武漢理工大學在汽車產業領域的背景優勢,覽易智能從廣大車企的數據標注需求破題,自主研發了“line”數據標注與管理平臺,可實現數據“采集—清洗—脫敏—標注—質檢—訓練”等一站式處理。
“line”平臺最立竿見影的效果是提升數據標注效率和質量,為數據標注師減負。
以四維點云圖像數據為例,每張點云圖像包含100至500幀畫面,每一幀畫面都至少要標注上百個點、線、框。若讓人純手工標注,幾個小時離不開座位。
而“line”平臺能自動完成70%以上的預標注任務,支持多人、多團隊協同標注,并能提供智能質檢功能。數據標注師需要做的就是幫AI查缺補漏,提升整體標注效率30%以上。
擁有高質量的數據集,才能訓練出高質量的AI大模型。加工者越細致、越專業,數據集的質量越高。就像醫療影像數據,主任醫師的手工標注質量,大概率高于醫學院大學生。
目前,金融、醫療、具身智能等行業已成為企業新的訂單增長點。張雪嬌認為,數據標注行業已進入高速發展期,對人才需求量巨大,湖北作為科教大省,擁有得天獨厚的優勢。覽易智能成立5年來,協同相關高校開展技能培訓,已累計培訓數據標注人才上萬人次,讓就業真正“長”在了產業上。
Copyright ? 2001-2025 湖北荊楚網絡科技股份有限公司 All Rights Reserved
互聯網新聞信息許可證 4212025003 -
增值電信業務經營許可證 鄂B2-20231273 -
廣播電視節目制作經營許可證(鄂)字第00011號
信息網絡傳播視聽節目許可證 1706144 -
互聯網出版許可證 (鄂)字3號 -
營業執照
鄂ICP備 13000573號-1
鄂公網安備 42010602000206號
版權為 荊楚網 www.cnhubei.com 所有 未經同意不得復制或鏡像