電話
028-6313-8188
郵箱
joyouai@joyouai.com
TOP
2025-03-13新聞資訊
文 | 中國電子信息產(chǎn)業(yè)發(fā)展研究院院長 張立
建設(shè)高質(zhì)量數(shù)據(jù)集是落實《中共中央 國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,推動數(shù)據(jù)產(chǎn)業(yè)和數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,推進“人工智能+”行動的重要抓手。當(dāng)前,隨著以Deepseek為代表的高效推理大模型快速發(fā)展和廣泛部署,數(shù)據(jù)匯聚產(chǎn)量低、供給質(zhì)量低、利用效率低的矛盾愈發(fā)突出,高質(zhì)量數(shù)據(jù)集建設(shè)的重要性日益顯現(xiàn)。應(yīng)從供給、標(biāo)準(zhǔn)、安全、價值多向發(fā)力,做好高質(zhì)量數(shù)據(jù)集建設(shè)工作,賦能行業(yè)高質(zhì)量發(fā)展。
01 高質(zhì)量數(shù)據(jù)集建設(shè)面臨“三低”難題
(一)數(shù)據(jù)匯聚產(chǎn)量低:數(shù)據(jù)存量小產(chǎn)量低,數(shù)據(jù)集匯聚共享效率有待加強。
一是高質(zhì)量數(shù)據(jù)儲備量低,中文數(shù)據(jù)規(guī)模較小。有關(guān)研究表明,應(yīng)用于人工智能的數(shù)據(jù)集可能會在2026-2032年間耗盡所有高質(zhì)量語言數(shù)據(jù)。此外,國際主流大模型數(shù)據(jù)集主要以英文為主,流行的Common Crawl數(shù)據(jù)集項目中文數(shù)據(jù)只占據(jù)4.8%。二是數(shù)據(jù)流通開放力度不足,公共數(shù)據(jù)獲取渠道不暢。近年來,網(wǎng)絡(luò)下載數(shù)據(jù)的通道不穩(wěn)定,數(shù)據(jù)發(fā)布格式多樣,跨部門、跨地區(qū)數(shù)據(jù)共享程度不足,數(shù)據(jù)孤島現(xiàn)象依然存在,數(shù)據(jù)資源缺乏有效整合和利用。三是數(shù)據(jù)標(biāo)注自動化程度不足,數(shù)據(jù)集產(chǎn)量與數(shù)據(jù)增速不匹配。2023年,我國數(shù)據(jù)生產(chǎn)總量達(dá)32.85澤字節(jié),同比增長22.44%。然而,當(dāng)前我國數(shù)據(jù)標(biāo)注智能化、專業(yè)化程度較低,專業(yè)數(shù)據(jù)處理人員隊伍數(shù)量缺口較大,數(shù)據(jù)集產(chǎn)量小,部分專業(yè)數(shù)據(jù)集無法規(guī)?;a(chǎn),難以滿足專業(yè)場景需求。
(二)數(shù)據(jù)供給質(zhì)量低:數(shù)據(jù)集質(zhì)量良莠不齊,缺乏主流高價值數(shù)據(jù)引領(lǐng)。
一是數(shù)據(jù)集存在缺失、尺度不一問題。不同行業(yè)、系統(tǒng)產(chǎn)生的數(shù)據(jù)格式多樣,受制于數(shù)據(jù)采集、加工過程中各類誤差、工具手段穩(wěn)定性等影響,數(shù)據(jù)集普遍存在分布偏差、顆粒度不一致、采集缺失甚至錯誤數(shù)據(jù)等問題。二是數(shù)據(jù)集混用影響訓(xùn)練效果。有關(guān)研究表明,在大模型的基準(zhǔn)測試中相關(guān)數(shù)據(jù)被用于模型訓(xùn)練的情況越來越常見,導(dǎo)致大模型出現(xiàn)部分測試分?jǐn)?shù)虛高、泛化能力下降、不相關(guān)任務(wù)表現(xiàn)驟降等問題,甚至可能導(dǎo)致大模型在實際應(yīng)用中產(chǎn)生“危害”。三是數(shù)據(jù)集標(biāo)準(zhǔn)不一,各行業(yè)主流價值數(shù)據(jù)集引領(lǐng)帶動作用未體現(xiàn)。當(dāng)前,高質(zhì)量數(shù)據(jù)集標(biāo)準(zhǔn)體系尚待完善,數(shù)據(jù)質(zhì)量評估評價缺乏統(tǒng)一標(biāo)準(zhǔn),政務(wù)領(lǐng)域、重點行業(yè)缺乏典型的主流價值數(shù)據(jù)集。
(三)數(shù)據(jù)利用效率低:算法偏見加劇數(shù)據(jù)遺失,數(shù)據(jù)要素價值挖掘短板明顯。
一是算法偏見導(dǎo)致原始數(shù)據(jù)遺失率高。在大模型訓(xùn)練過程中,數(shù)據(jù)呈現(xiàn)長尾分布,為提高訓(xùn)練成功率,多數(shù)大模型算法采用“去尾”方法,即訓(xùn)練過程中對原始數(shù)據(jù)進行選擇性“忽略”,因而導(dǎo)致數(shù)據(jù)遺失問題,甚至造成對原始數(shù)據(jù)的破壞。二是數(shù)據(jù)使用率較低。據(jù)統(tǒng)計,2023年,在我國存儲的數(shù)據(jù)中,一年未使用的數(shù)據(jù)占比約4成,企業(yè)一年未使用的數(shù)據(jù)占比為超過30%,大量數(shù)據(jù)被存儲后便不再被讀取和復(fù)用,成為“死”數(shù)據(jù)。三是數(shù)據(jù)價值挖掘不足。數(shù)據(jù)加工能力不足導(dǎo)致大量數(shù)據(jù)價值被低估、難以挖掘復(fù)用。據(jù)統(tǒng)計,2023年,全國數(shù)據(jù)產(chǎn)存轉(zhuǎn)化率為2.9%,海量數(shù)據(jù)源頭即棄。在開展數(shù)字化轉(zhuǎn)型的大型企業(yè)中,實現(xiàn)數(shù)據(jù)復(fù)用增值的僅有8.3%,數(shù)據(jù)價值挖掘效率極低。此外,高質(zhì)量數(shù)據(jù)集的價值實現(xiàn)路徑不清晰也引發(fā)企業(yè)運營建設(shè)積極性降低。
02 從供給、標(biāo)準(zhǔn)、安全、價值四方面發(fā)力,推動高質(zhì)量數(shù)據(jù)集建設(shè)賦能
(一)強化數(shù)據(jù)獲取與共享,探索行業(yè)試點聯(lián)合推進共建新模式。
一是加強物聯(lián)網(wǎng)等數(shù)據(jù)接口開放,廣泛匯聚高質(zhì)量數(shù)據(jù),提高原始數(shù)據(jù)直連比率。建立高質(zhì)量數(shù)據(jù)集匯聚平臺,推動重點行業(yè)高質(zhì)量中文數(shù)據(jù)集、思維鏈數(shù)據(jù)集和主流價值數(shù)據(jù)集建設(shè),支持行業(yè)專業(yè)機構(gòu)深度參與數(shù)據(jù)集建設(shè)、訓(xùn)練、應(yīng)用全流程。二是推動公共高質(zhì)量數(shù)據(jù)集開放共享,搭建數(shù)據(jù)集共享平臺,加快構(gòu)建安全數(shù)字底座,支持由專業(yè)機構(gòu)配合全流程數(shù)據(jù)開放合規(guī)工作,推動數(shù)據(jù)集高效安全開放共享。三是鼓勵各地因地制宜出臺指導(dǎo)意見,探索建立委托授權(quán)、模型訓(xùn)練知識產(chǎn)權(quán)保護豁免機制,試點行業(yè)間、地區(qū)間聯(lián)合共建數(shù)據(jù)共享開放交流機制,逐步提升數(shù)據(jù)流通共享效率。
(二)完善質(zhì)量與標(biāo)準(zhǔn)體系,推動建設(shè)重點行業(yè)數(shù)據(jù)集評價標(biāo)準(zhǔn)。
一是建立數(shù)據(jù)集質(zhì)量評估標(biāo)準(zhǔn),有機融入《國家數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)指南》體系。加快研究制定《高質(zhì)量數(shù)據(jù)集質(zhì)量評測規(guī)范》等行業(yè)高質(zhì)量數(shù)據(jù)集質(zhì)量評估相關(guān)標(biāo)準(zhǔn),建立安全風(fēng)險、有害內(nèi)容評估專業(yè)數(shù)據(jù)集,全生命周期把控數(shù)據(jù)集質(zhì)量水平。二是制定重點行業(yè)、主流價值數(shù)據(jù)標(biāo)注評估標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)集接口標(biāo)準(zhǔn)。加快研究制定《高質(zhì)量數(shù)據(jù)集數(shù)據(jù)標(biāo)注規(guī)范》,規(guī)范面向人工智能模型訓(xùn)練的高質(zhì)量數(shù)據(jù)集數(shù)據(jù)標(biāo)注流程。制定合成數(shù)據(jù)使用標(biāo)準(zhǔn),平衡好合成數(shù)據(jù)與原始數(shù)據(jù)應(yīng)用的“度”,助力共同發(fā)揮最佳作用。三是建立數(shù)據(jù)集流通應(yīng)用質(zhì)量評估標(biāo)準(zhǔn)。規(guī)范數(shù)據(jù)集使用、流通范圍,明確數(shù)據(jù)集提供方、使用方、服務(wù)方權(quán)利義務(wù),建設(shè)數(shù)據(jù)集應(yīng)用效率評估體系,指導(dǎo)動態(tài)分配數(shù)據(jù)采集、標(biāo)注資源,提升數(shù)據(jù)資源利用效率。
(三)加強數(shù)據(jù)隱私與安全保障,推動數(shù)據(jù)集安全評估能力建設(shè)。
一是強化數(shù)據(jù)集安全保障技術(shù)水平。加強數(shù)據(jù)倫理、風(fēng)險評估監(jiān)管判斷技術(shù)工具研發(fā),推動構(gòu)建數(shù)據(jù)集隔離倉庫、原始數(shù)據(jù)資源池、數(shù)據(jù)安全屋等措施,加強真實數(shù)據(jù)保護管理能力。二是建立對合成數(shù)據(jù)集的持續(xù)監(jiān)控評估機制,加強多模態(tài)數(shù)據(jù)融合技術(shù)鑒偽能力,建設(shè)深度合成鑒偽檢測平臺,支持聯(lián)邦學(xué)習(xí)、差分隱私、可信數(shù)據(jù)交換等AI安全技術(shù)工具發(fā)展。三是建立跨行業(yè)產(chǎn)學(xué)研合作平臺,加強研究人員、數(shù)據(jù)工程師、行業(yè)專家多方緊密合作,增強算法與數(shù)據(jù)的匹配度。提高模型算法水平,在數(shù)據(jù)集處理全過程加入數(shù)據(jù)可靠性評估分析,提升數(shù)據(jù)資源利用效能。
(四)優(yōu)化數(shù)據(jù)集運營模式,推動數(shù)據(jù)資源價值生態(tài)循環(huán)落地。
一是搭建全國一體化的行業(yè)高質(zhì)量數(shù)據(jù)集供需對接機制和平臺,建立數(shù)據(jù)集資源地圖,促進高質(zhì)量數(shù)據(jù)集供需對接,推動數(shù)據(jù)集的流通和共享。二是加強政策引導(dǎo),完善數(shù)據(jù)集定價和收益分配機制,鼓勵企業(yè)探索商業(yè)模式創(chuàng)新,實現(xiàn)數(shù)據(jù)集的可持續(xù)發(fā)展和應(yīng)用。加快形成面向高質(zhì)量數(shù)據(jù)集的價值循環(huán)體系,打造數(shù)據(jù)集產(chǎn)業(yè)生態(tài)。三是因地制宜挖掘優(yōu)勢產(chǎn)業(yè),分類開展行業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)運營及應(yīng)用工作,以試點先行,逐步推廣方式,推動實現(xiàn)區(qū)域、行業(yè)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)和數(shù)據(jù)集建設(shè)生態(tài)有序發(fā)展。發(fā)布高質(zhì)量數(shù)據(jù)集建設(shè)典型案例,為行業(yè)和地方開展高質(zhì)量數(shù)據(jù)集建設(shè)提供靶向支撐。