">
人民網深圳8月26日電 (記者栗翹楚)隨著人工智能技術快速發展,高質量數據集已成為推動生成式人工智能創新發展的核心稀缺要素。

清華大學中國電子數據治理工程研究院院長孟慶國在“2025人民數據大會”發表主旨演講。人民網記者 翁奇羽攝
8月26日,清華大學中國電子數據治理工程研究院院長孟慶國在“2025人民數據大會”發表主旨演講時表示,人工智能的每一次發展和進步都與數據有關,沒有數據的支撐,人工智能將寸步難行。在大模型時代,有沒有成規模、高質量、多模態的數據,成為行業發展的基礎。
高質量數據集是什么?
孟慶國表示,高質量數據集需要具備以下要素:有一定規模、準確性高和擁有足夠多樣性,同時還包括數據的時效性,數據是否合規、合法,以及數據和訓練模型之間的匹配程度。
數據標注作為將原始數據轉化為可識別、可訓練、可計算的關鍵環節,其質量直接決定了數據集的應用價值。培育壯大數據標注產業對于提升數據供給質量,推動人工智能創新發展具有重要支撐作用。
孟慶國表示,近年來,我國數據標注產業鏈發展迅速,市場規模達800多億,但依然存在高質量行業數據規模較小、數據治理的能力不足、復合型標注人才存在缺口、數據質量的評價體系不完善等現象。
如何開展數據標注?
在國家戰略布局和大模型技術突破的雙重驅動下,數據標注產業正在經歷從勞動密集型向知識密集型的深刻轉型。孟慶國表示,從歷史維度來看,過去的數據更多依賴人工,如今是以工具和平臺作為標注手段,未來,依靠人工智能自身去進行數據標注將成為趨勢。在做好布局和探索過程中要把握以下幾方面路徑:
要進行需求牽引,通過挖掘人工智能的場景,來釋放標注的需求。要因地制宜,通過構建一些特色產業的場景,來發展具有特色性的數據標注產業。要夯實基礎支撐,在數據質量、數據倫理、數據安全得到保障的前提下,構建數據可信的標注空間,助力數據價值釋放。要打造產業聚集,通過產業聚集推動數據產業的發展。要帶動就業,通過數據標注,發展具有專業領域知識的專門性標注人才。要營造良好產業生態,特別是在政策、制度、標準、公共服務平臺建設等方面進一步營造好數據標注的發展環境。
Copyright ? 2001-2025 湖北荊楚網絡科技股份有限公司 All Rights Reserved
互聯網新聞信息許可證 4212025003 -
增值電信業務經營許可證 鄂B2-20231273 -
廣播電視節目制作經營許可證(鄂)字第00011號
信息網絡傳播視聽節目許可證 1706144 -
互聯網出版許可證 (鄂)字3號 -
營業執照
鄂ICP備 13000573號-1
鄂公網安備 42010602000206號
版權為 荊楚網 www.cnhubei.com 所有 未經同意不得復制或鏡像