- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2025-10-28來源:億信華辰瀏覽數:38次
2025年10月24日,由DAC全球數據資產理事會與湖北省電子信息產品質量監督檢驗院聯合主辦,億信華辰、長沙翼游、高頌數科共同承辦的 “高質量數據集建設與數據資產化實踐峰會” 在武漢隆重舉行。本次峰會以深入貫徹落實國家“數據二十條”精神為核心目標,聚焦高質量數據集建設、全國一體化數據市場培育、湖北省數據要素市場體系建設等關鍵議題,旨在推動數據產業生態繁榮發展,助力武漢打造全國數字經濟一線城市。
作為國內領先的智能數據產品與服務提供商,億信華辰受邀出席并發表主題演講,分享在企業數據質量管控與高質量數據集建設領域的前沿思考與實踐經驗,引發業界廣泛關注。
政策引領,高質量數據集成AI發展核心支撐
當前,人工智能正加速進入大模型時代,而高質量數據集已成為決定大模型性能的關鍵燃料。國家層面高度重視數據要素價值釋放,《“數據要素×”三年行動計劃》《關于促進數據標注產業高質量發展的實施意見》《國家數據基礎設施建設指引》等一系列政策相繼出臺,明確將高質量數據集建設提升至國家戰略高度。
國務院國資委已發布首批30項中央企業高質量數據集,北京、上海、湖北等地也紛紛推進地方性高質量數據集建設。湖北省于2024年底發布首批10個行業高質量數據集,總量達394.1T,覆蓋科技創新、醫療健康、交通運輸等多個重點領域。
然而,在快速發展的同時,高質量數據集建設仍面臨場景脫節、供給不足、標準缺失、合規風險、評價體系不完善等諸多挑戰。如何系統化、工程化地構建高質量數據集,成為政企各界亟待破解的難題。
構建高質量數據集建設路徑
會上,億信華辰資深咨詢專家吳倩發表了題為《企業數據質量管控體系與高質量數據集建設路徑》的主題演講,系統闡述了企業在AI時代下構建高質量數據集的方法論與實踐框架。
吳倩指出,高質量數據集是經過采集、加工處理后,可直接用于訓練AI模型,并能有效提升模型性能的數據集合,具備高技術含量、高知識密度、高價值應用的“三高”特征。其建設必須從“為數據而數據”的作坊式模式,轉向工程化、系統化、標準化的現代數據工程模式。
為此,億信華辰提出以“一個體系+一個平臺+四項能力域”為核心的高質量數據集建設整體解決方案:
依托DCMM(數據管理能力成熟度評估模型)和高質量數據集評估指標框架,構建覆蓋項目管理、組織架構、制度規范、人才管理四大維度的大模型數據管理體系,確保數據工程高效協同、合規可控。
圍繞數據集全生命周期,重點建設四大核心能力:
數據匯聚:實現多源異構數據的統一接入與存儲。 質量控制:建立五維數據標準體系(基礎、技術、業務、管理、安全),實現數據“可用、可信、可聯、可溯”。 資源運營:通過分級分類、版本管理、開放共享,提升數據資產流通效率。 開發維護:涵蓋數據采集、處理、標注、質檢、合成等關鍵環節,支持預訓練、微調、對齊等模型訓練階段。基于億信華辰自主研發的睿治數據治理平臺與ABI數據分析平臺,構建高質量數據集開發平臺,集成數據采集、標準管理、數據處理、智能標注、質量測評、資產運營等功能模塊,實現質量評估指標的工程化落地。
平臺采用“自動化為主+人工校核為輔”的檢測方式,構建涵蓋說明文檔、數據本體、模型應用三大維度的評價指標體系,為數據集的質量提升提供客觀依據。
場景驅動,AI for Data與Data for AI雙向賦能
億信華辰強調,高質量數據集建設必須以應用場景為驅動,實現業務目標與數據工程的深度融合。公司已通過AI for Data(利用AI提升數據治理效率)與Data for AI(利用高質量數據賦能AI模型)的雙向賦能,打造“數據-知識-智能”閉環。
此次峰會不僅是思想碰撞的盛會,更是合作啟航的起點。億信華辰將繼續發揮在數據治理、數據分析、AI融合領域的技術優勢與實踐經驗,攜手政府、企業、科研機構等各方力量,共同推進高質量數據集建設,完善數據資產化服務體系,助力數據要素市場化配置改革,為數字中國建設貢獻智慧與力量。
END