">
人民網北京10月11日電 (記者趙竹青)近日,人民網依托傳播內容認知全國重點實驗室建設的“主流價值語料庫”,入選國家數據局高質量數據集典型案例。10月10日,國家數據局官方微信公眾號對該案例進行了專題推介。
語料庫如同人工智能的“教材”,深刻影響著人工智能的政治立場、價值導向和倫理邊界。人民網主流價值語料庫主要圍繞習近平新時代中國特色社會主義思想和中國式現代化涉及的經濟、政治、文化等十幾個領域,依托黨報黨網長期建設形成的新聞資訊、理論評論、政策法規和科普知識等優質資源,經科學采樣、歸集、清洗標注、定制、風控等環節,精心打磨基礎語料、圖文語料、重點領域語料、問答語料、事實語料、風控語料等六類語料,相關成果在多家主流國產大模型廠家得到應用驗證。
截至目前,主流價值語料庫總體規模超過300TB,其中基礎語料超過300億字、問答語料超過30萬對,是國內規模最大、內容最權威的主流價值語料庫。
人民網主流價值語料庫的建設具有三大創新亮點:
一是高質量語料建設范式創新。針對大模型面臨的瓶頸問題,人民網全員下足“笨功夫”,人工設問、人工作答、三審三校。結合大模型、自然語言處理等多種前沿技術歸集、清洗、標注、風控,以“笨功夫”“巧功夫”的有機結合推動高質量語料的高效建設。
二是高質量語料技術體系創新。依托傳播內容認知全國重點實驗室的技術、算力與數據資源,研究基于大模型與專有模型的語料數據自動分類、精細標注與體系化技術,搭建面向主流價值語料處理的全棧式語料處理工具鏈和可控共享服務平臺。
三是高質量語料智能生產創新。凝練新聞、政策、著作、流行語等素材規律,構建適配多領域的專業語料庫和語料生成大模型,結合人工經驗對輸出內容進行多維度糾偏提質。
2025年1月,人民網主流價值語料庫在中國網絡空間安全協會建設的中文互聯網語料資源平臺發布。目前,人民網正與多地省級媒體開展共建共享合作,并積極參與北京、上海等地的語料聯盟建設,持續推動主流價值語料在更廣范圍的深度應用與協同發展。
Copyright ? 2001-2025 湖北荊楚網絡科技股份有限公司 All Rights Reserved
互聯網新聞信息許可證 4212025003 -
增值電信業務經營許可證 鄂B2-20231273 -
廣播電視節目制作經營許可證(鄂)字第00011號
信息網絡傳播視聽節目許可證 1706144 -
互聯網出版許可證 (鄂)字3號 -
營業執照
鄂ICP備 13000573號-1
鄂公網安備 42010602000206號
版權為 荊楚網 www.cnhubei.com 所有 未經同意不得復制或鏡像