一、AI 基礎數據服務行業(yè)簡介
AI產業(yè)對訓練數據的需求主要來源于成熟 AI算法模型的拓展性需求和新生AI算法模型的前瞻性需求。在成熟的拓展性需求方面,麥肯錫的研究報告表明:深度學習模型對訓練數據的數據量、多樣性和更新速度方面提出較高要求。
為充分發(fā)揮人工智能技術的潛能,深度學習模型需要海量且涵蓋圖像、視頻及語音在內等多種類型的訓練數據進行模型訓練。此外,人工智能技術要求算法模型根據潛在的應用場景變化而持續(xù)更新,因此,人工智能算法模型所使用的訓練數據亦需要定期更新。具體而言,約 1/3 的算法模型每月至少更新一次,約 1/4 的算法模型每日至少更新一次,人工智能算法模型持續(xù)更新的特點將進一步拓展各領域訓練數據的需求空間。
而在新生的前瞻性需求方面,隨著人工智能商業(yè)化進程的演進,新興 AI 應用場景如智聯(lián)網 AIoT、AI PaaS、產業(yè)互聯(lián)網等將展現出巨大的發(fā)展?jié)摿Γ⒅鸩酱龠M AI 技術和算法模型的優(yōu)化和創(chuàng)新。
因此,在創(chuàng)新應用場景和新型算法的帶動下,具有前瞻性的訓練數據產品和高定制化的訓練數據服務需求將逐步成為主流。
二、全球 AI 基礎數據服務行業(yè)的發(fā)展情況
全球 AI 基礎數據服務行業(yè)處于快速成長期,市場規(guī)模具有較大的增長空間。AI 應用場景的創(chuàng)新和機器學習算法的流行直接帶動了訓練數據需求的大幅增長,這種趨勢導致 AI 訓練數據難以獲取和數據科學家、數據工程師等人力資源稀缺成為制約 AI 產業(yè)發(fā)展的兩大挑戰(zhàn)。
根據 Dimensional Research 的全球調研報告,72%的受訪者認為至少使用超過10 萬條訓練數據進行模型訓練,才能保證模型有效性和可靠性,96%的受訪者在訓練模型的過程中遇到訓練數據質量不佳、數量不足、數據標注人員不足等難題。
為應對 AI 訓練數據所帶來的多方面挑戰(zhàn),AI 企業(yè)開始從第三方購買原料數據收集、訓練數據生產和數據專家咨詢等服務,調研結果指出,外包服務能夠有效加快算法模型落地應用的速度。
因此,得益于訓練數據需求增長和 AI 企業(yè)訓練數據對外采購意識的形成,全球 AI 基礎數據服務行業(yè)進入快速成長期,市場規(guī)模具有較大的增長潛力。
三、中國 AI 基礎數據服務行業(yè)市場規(guī)模
從 AI 產業(yè)鏈的發(fā)展情況和未來發(fā)展趨勢來看,中國 AI 基礎數據服務行業(yè)的市場規(guī)模將不斷擴大。
一方面,隨著算法模型、技術理論和應用場景的優(yōu)化和創(chuàng)新,AI 產業(yè)對訓練數據的拓展性需求和前瞻性需求均快速增長;
另一方面,隨著行業(yè)內對訓練數據需求類型的增加以及對服務標準要求的提高,AI 產業(yè)鏈的專業(yè)化分工將愈加清晰,專業(yè)化的訓練數據服務提供商將在 AI 產業(yè)鏈上的扮演更加重要的角色。
根據艾瑞咨詢《2020 年中國 AI 基礎數據服務行業(yè)發(fā)展報告》,2019 年中國 AI基礎數據服務行業(yè)的市場規(guī)模達到 30.9 億元,預計 2025 年市場規(guī)模將突破100 億元,年均復合增長率達到 21.8%。
四、中國 AI 基礎數據服務行業(yè)市場規(guī)模增長的驅動因素
隨著 AI 基礎數據服務行業(yè)的市場規(guī)模增速平穩(wěn)向上,增量市場將替代存量市場成為主要拉力。
從需求方的角度看,AI 基礎數據服務市場可以分為存量市場和增量市場:
存量市場是指訓練數據服務行業(yè)已有并且穩(wěn)定的業(yè)務范疇,如人臉識別、車輛識別、圖片識別、語音識別等相關業(yè)務,增量市場是指海外業(yè)務、新增需求方、新增業(yè)務場景等。在存量市場中,巨頭互聯(lián)網科技公司和 AI 公司為主要需求方,項目落地所需的訓練數據逐漸成為需求核心,目前存量市場仍是 AI基礎數據服務市場的需求主體。
增量市場是相對于存量市場而存在的,以海外市場、國內新需求方市場、國內新興業(yè)務拓展和國內新成立的 AI 創(chuàng)業(yè)公司的需求為主,目前增量市場對于整體市場規(guī)模的貢獻率較低,但隨著中國 AI 技術的不斷深入與國際化,增量市場將在未來成為主要的拉動力量。 AI 基礎數據服務行業(yè)市場規(guī)模增長的驅動因素可以分為外部因素和內部因素。
在外部因素方面,AI 產業(yè)支撐體系方面的政策支持、投資機構的資金投入、科技巨頭企業(yè)的 AI 生態(tài)鏈布局將推動 AI 基礎數據服務行業(yè)加速發(fā)展。
在內部因素方面,現階段有監(jiān)督的深度學習算法的廣泛應用為 AI 基礎數據服務行業(yè)帶來穩(wěn)定的市場需求,未來 AI 新場景、新模式、新業(yè)態(tài)的不斷涌現將對訓練數據的數量和類型提出更高的要求,為 AI 基礎數據服務行業(yè)帶來源源不斷的新生市場需求。
五、中國 AI 基礎數據服務行業(yè)業(yè)需求類型
按數據類型劃分,中國 AI 基礎數據服務行業(yè)的市場需求可以分為圖像類數據需求、語音類數據需求和自然語言處理類數據需求。
2019 年,圖像類、語音類和自然語言處理類數據需求規(guī)模占比分別為 49.7%、39.1%和 11.2%。
六、中國 AI 基礎數據服務行業(yè)的產業(yè)鏈情況
中國 AI 基礎數據服務行業(yè)產業(yè)鏈:
上游包括數據生產者和數據生產組織者,主要提供原料數據的采集服務;
中游包括 AI 基礎數據服務商,主要通過數據處理能力和項目管理能力完成訓練數據集結構設計、數據加工和質量檢測等工作,為下游客戶提供訓練數據產品和相關服務;
下游包括科技公司、行業(yè)企業(yè)、AI 公司和科研單位,主要負責 AI 算法研發(fā)。
七、中國 AI 基礎數據服務行業(yè)的市場參與主體
當前,中國 AI 基礎數據服務行業(yè)的市場參與主體主要包括下述幾類:
一是學術機構,為開展相關研究工作,自行采集、標注,并建設學術訓練資源庫。這類訓練數據主要用于算法的創(chuàng)新性驗證、學術競賽等,但通常其迭代速度較慢,難用于實際應用場景。
二是政府等中立機構,他們以公益形式開放的公共數據,主要包括政府、銀行機構等行業(yè)數據及經濟運行數據等,數據標注一般由使用數據的機構完成。
三是需求方自建基礎數據團隊,需求方科技公司或 AI 公司等為開展業(yè)務而自行建設訓練資源庫,一般自行采集、標注形成自用訓練數據,或采購專業(yè)數據公司提供的數據外包服務。
四是 AI 基礎數據服務商,依據業(yè)務規(guī)??梢赃M一步分為品牌數據服務商和中小數據供應商。這類公司業(yè)務包括出售現成訓練數據集的使用授權,或根據用戶的具體需求提供數據處理服務(企業(yè)自行采集或用戶提供原始數據、企業(yè)對數據進行轉寫、標注),具體業(yè)務服務形式包括且不限于提供訓練數據產品、提供數據采集服務、提供數據轉寫標注服務等。
八、中國 AI 基礎數據服務行業(yè)的競爭格局
在上述的參與主體中,品牌數據服務商、中小數據供應商和需求方自建基礎數據團隊構成市場競爭關系,為 AI 基礎數據服務市場的主要供應方,在 2019 年AI基礎數據服務市場規(guī)模中的份額占比分別為 30.4%、47.0%和 22.6%,目前中小數據供應商是市場中的主要供應力量。
資料來源:艾瑞咨詢
從供應方的發(fā)展來看,行業(yè)內部處于“洗牌”階段,未來品牌數據服務商陣營將替代中小型供應商陣營,占據市場的主要份額。
目前,中小型數據供應商的整體體量仍然可觀,但隨著業(yè)務門檻提升、客戶需求多樣化、價格戰(zhàn)中利潤被壓縮等情況成為常態(tài),越來越多的中小型數據供應商面臨經營困境,所占市場份額將呈現持續(xù)縮小的趨勢。
艾瑞咨詢的數據顯示,2019 年中小型數據供應商份額比預期值縮小了 20.8%,而這部分份額按 7:3 的比例向品牌數據服務商和需求方自建基礎數據團隊釋放,因此,品牌數據服務商將在行業(yè)內部調整階段獲益最多。
九、行業(yè)發(fā)展態(tài)勢
1 需求方對 AI 訓練數據的要求向精細化轉型
在行業(yè)發(fā)展初期,AI 基礎數據服務行業(yè)的門檻較低,玩家魚龍混雜,行業(yè)標準模糊,服務質量參差不齊。隨著 AI 產業(yè)落地成為主旋律、行業(yè)整體競爭愈發(fā)激烈,需求方對訓練數據質量的要求不斷提高,垂直場景的定制化訓練數據需求成為主流,需求方市場對 AI 訓練數據的要求逐漸向精細化轉型。
需求方對 AI 訓練數據的精細化需求主要體現在兩方面:
一方面,人工智能 算法應用要經歷研發(fā)、訓練和落地三個階段,需求方根據算法應用的不同階段對 AI 訓練數據提出差異化需求:研發(fā)需求是對新拓展領域或新建算法的訓練,對數據數量的要求較高,但數據標注內容傾向于標準化;訓練需求一般是對算法的準確性和健壯性進行優(yōu)化,對數據標注的內容需求較為豐富,對數據準確性要求較高;落地需求一般為算法較成熟的核心場景,對訓練數據的內容有特定指向,采標難度較大,同時對 AI 基礎數據服務商的技術能力、服務意識、穩(wěn)定性和效率有較高要求。隨著人工智能技術的發(fā)展及與應用場景的深入結合,訓練需求和落地需求逐漸成為主流。
另一方面,需求方對 AI 基礎數據服務商的數據安全、采標能力、數據質量、管理能力、服務能力等核心能力提出了更高的要求:在數據安全方面,需求方對數據授權、數據傳輸、存儲及結項后的數據銷毀等環(huán)節(jié)更加重視;在采標能力方面,需求方更關注服務商在某些特定領域或垂直場景的采集能力、定制研發(fā)標注工具的能力以及對項目需求的理解程度;在數據質量方面,需求方對首次交付的準確率提出更高要求;在管理能力方面,需求方注重服務商 的項目管理能力、服務效率以及執(zhí)行團隊的素養(yǎng)與信譽;在服務能力方面,需求方希望 AI 基礎數據服務商具備快速響應能力和主動服務意識。
2 中小型數據供應商市場份額縮小,品牌數據服務商價值凸顯
由于目前 AI 基礎數據服務行業(yè)對勞動力存在密集型需求,人力輸送和項目轉包等服務形式仍然存在,因此中小型數據供應商仍占有一定的市場份額。但隨著業(yè)務門檻提升、客戶需求向精細化轉型,眾多中小型數據供應商在數據質量和采標能力方面達不到相關要求,將逐漸遠離“利潤中心”,面臨被淘汰或被整合的局面。
根據《行業(yè)研究報告》,2019 年人工智能中小型數據服務商市場份額比預期值縮小 20.8%,相應市場份額按 7:3 的比例向品牌數據服務商和需求方自建基礎數據團隊轉移,因此品牌數據服務商將獲得大部分“紅利份額”,商業(yè)價值逐步凸顯。
-
AI
+關注
關注
91文章
41752瀏覽量
302940 -
人工智能
+關注
關注
1821文章
50458瀏覽量
267537
發(fā)布評論請先 登錄
分析:AI人工智能基礎數據服務行業(yè)發(fā)展概況及方向
評論