全部服務(wù)分類
發(fā)布者:95健康說(shuō)時(shí)間:05-22
分類:資料下載 > 資質(zhì)審批 > 電信增值 > 金融行業(yè) > 其它行業(yè)
相關(guān)資質(zhì):電信設(shè)備進(jìn)網(wǎng)許可證
發(fā)布機(jī)構(gòu):拉薩盛創(chuàng)企業(yè)管理咨詢公司
在經(jīng)歷了一段時(shí)期的野蠻生長(zhǎng)之后,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)進(jìn)入成長(zhǎng)期,行業(yè)格局逐漸清晰。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)方的上游是數(shù)據(jù)生產(chǎn)和外包提供者,下游是AI算法研發(fā)單位,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)方通過(guò)數(shù)據(jù)處理能力和項(xiàng)目管理能力為其提供整體的數(shù)據(jù)資源服務(wù),不過(guò)AI算法研發(fā)單位和AI中臺(tái)也可提供一些數(shù)據(jù)處理工具,產(chǎn)業(yè)上下游普遍存在交叉。
2018年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比86%,預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破113億元。市場(chǎng)供給方主要由人工智能基礎(chǔ)數(shù)據(jù)服務(wù)供應(yīng)商和算法研發(fā)單位自建或直接獲取外包標(biāo)注團(tuán)隊(duì)的形式組成,其中供應(yīng)商是行業(yè)主要支撐力量。
數(shù)據(jù)安全、采標(biāo)能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù)能力等仍是需求方的痛點(diǎn),需要人工智能基礎(chǔ)服務(wù)商有明確具體的安全管理流程、能夠深入理解算法標(biāo)注需求、可提供精力集中且高質(zhì)量的服務(wù)、能夠積極配合、快速響應(yīng)需求方的要求。
隨著算法需求越來(lái)越旺盛,依賴人工標(biāo)注不能滿足市場(chǎng)需求,因此增強(qiáng)數(shù)據(jù)處理平臺(tái)持續(xù)學(xué)習(xí)能力,由機(jī)器持續(xù)學(xué)習(xí)人工標(biāo)注,提升預(yù)標(biāo)注和自動(dòng)標(biāo)注能力對(duì)人工的替代率將成趨勢(shì)。遠(yuǎn)期,越來(lái)越多的長(zhǎng)尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增強(qiáng),機(jī)器模擬或機(jī)器生成數(shù)據(jù)會(huì)是解決這一問(wèn)題的良好途徑,及早研發(fā)相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來(lái)的護(hù)城河。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)定義
意指為AI算法訓(xùn)練及優(yōu)化提供數(shù)據(jù)采集和標(biāo)注等形式的服務(wù)
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)指為AI算法訓(xùn)練及優(yōu)化提供的數(shù)據(jù)采集、清洗、信息抽取、標(biāo)注等服務(wù),以采集和標(biāo)注為主。人工智能概念爆發(fā)伊始,算法、算力、數(shù)據(jù)就作為最重要的三要素被人們樂(lè)道,進(jìn)入落地階段,智能交互、人臉識(shí)別、無(wú)人駕駛等應(yīng)用成為了最大的熱門(mén),AI公司開(kāi)始比拼技術(shù)與產(chǎn)業(yè)的結(jié)合能力,而數(shù)據(jù)作為AI算法的“燃料”,是實(shí)現(xiàn)這一能力的必要條件,因此,為機(jī)器學(xué)習(xí)算法訓(xùn)練、優(yōu)化提供數(shù)據(jù)采集、標(biāo)注等服務(wù)的人工智能基礎(chǔ)數(shù)據(jù)服務(wù)成為了這一人工智能熱潮中必不可少的一環(huán)。如果說(shuō)計(jì)算機(jī)工程師是AI的老師,那基礎(chǔ)數(shù)據(jù)服務(wù)就是老師手中的教材。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)發(fā)展歷程
行業(yè)進(jìn)入成長(zhǎng)期,行業(yè)格局逐漸清晰
伴隨國(guó)內(nèi)人工智能熱潮爆發(fā),大量的AI公司拿到融資,為了不斷提高算法精度,數(shù)據(jù)采標(biāo)需求也空前爆發(fā),一度催生了行業(yè)的繁榮。但早期的AI基礎(chǔ)數(shù)據(jù)服務(wù)門(mén)檻較低,玩家魚(yú)龍混雜,使行業(yè)標(biāo)準(zhǔn)模糊、服務(wù)質(zhì)量參差不齊。隨著競(jìng)爭(zhēng)加快,AI公司對(duì)訓(xùn)練數(shù)據(jù)的質(zhì)量要求也不斷提高,并且當(dāng)產(chǎn)業(yè)落地成為主旋律,需求方對(duì)垂直場(chǎng)景的定制化數(shù)據(jù)采標(biāo)需求成為主流,眾多小型AI基礎(chǔ)數(shù)據(jù)服務(wù)公司從數(shù)據(jù)質(zhì)量和采標(biāo)能力上達(dá)不到要求,或被淘汰,或依附大平臺(tái),行業(yè)格局逐漸清晰,頭部公司實(shí)力逐漸凸顯。隨著算法需求越來(lái)越旺盛,目前機(jī)器輔助標(biāo)注、人工主要標(biāo)注的手段需要改進(jìn)提升,增強(qiáng)數(shù)據(jù)處理平臺(tái)持續(xù)學(xué)習(xí)和自學(xué)習(xí)能力,增加機(jī)器能夠標(biāo)注維度、提升機(jī)器處理數(shù)據(jù)的精度,由機(jī)器承擔(dān)主要標(biāo)注工作將成為下一階段的行業(yè)重心。未來(lái),越來(lái)越多的長(zhǎng)尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增強(qiáng),人機(jī)協(xié)作標(biāo)注的模式性價(jià)比不足,機(jī)器模擬或機(jī)器生成數(shù)據(jù)會(huì)是解決這一問(wèn)題的良好途徑,及早研發(fā)相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來(lái)的護(hù)城河。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的行業(yè)價(jià)值
目前有監(jiān)督的深度學(xué)習(xí)是主流,標(biāo)注數(shù)據(jù)是其學(xué)習(xí)根本
人工智能是研究如何通過(guò)機(jī)器來(lái)模擬人類認(rèn)知能力的科學(xué),機(jī)器學(xué)習(xí)是現(xiàn)階段實(shí)現(xiàn)人工智能的主要手段。機(jī)器學(xué)習(xí)方法通常是從已知數(shù)據(jù)中學(xué)習(xí)規(guī)律或者判斷規(guī)則,建立預(yù)測(cè)模型,其中,深度學(xué)習(xí)可以通過(guò)對(duì)低層特征的組合,形成更加抽象的高層屬性類別,自動(dòng)從信息中學(xué)習(xí)有效的特征并進(jìn)行分類,而無(wú)需人為選取特征。憑借自動(dòng)提取特征、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、端到端學(xué)習(xí)等優(yōu)勢(shì),深度學(xué)習(xí)在圖像和語(yǔ)音領(lǐng)域?qū)W習(xí)效果最佳,是當(dāng)今最熱門(mén)的算法架構(gòu)。在實(shí)際應(yīng)用中,深度學(xué)習(xí)算法多采用有監(jiān)督學(xué)習(xí)模式,即需要標(biāo)注數(shù)據(jù)對(duì)學(xué)習(xí)結(jié)果進(jìn)行反饋,在大量數(shù)據(jù)訓(xùn)練下,算法錯(cuò)誤率能大大降低?,F(xiàn)在的人臉識(shí)別、自動(dòng)駕駛、語(yǔ)音交互等應(yīng)用都采用這類方法訓(xùn)練,對(duì)于各類標(biāo)注數(shù)據(jù)有著海量需求,可以說(shuō)數(shù)據(jù)資源決定了當(dāng)今人工智能的高度。由于應(yīng)用有監(jiān)督學(xué)習(xí)的AI算法對(duì)于標(biāo)注數(shù)據(jù)的需求遠(yuǎn)大于現(xiàn)有的標(biāo)注效率和投入預(yù)算,無(wú)監(jiān)督或僅需要少量標(biāo)注數(shù)據(jù)的弱監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)成為了科學(xué)家探索的方向,但目前無(wú)論從學(xué)習(xí)效果和使用邊界來(lái)看,均不能有效替代有監(jiān)督學(xué)習(xí),人工智能基礎(chǔ)數(shù)據(jù)服務(wù)將持續(xù)釋放其對(duì)于人工智能的基礎(chǔ)支撐價(jià)值。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的主要產(chǎn)品形式
定制服務(wù)為主要服務(wù)形式,數(shù)據(jù)集產(chǎn)品集中于語(yǔ)音類賽道
目前,國(guó)內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)主要為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù),數(shù)據(jù)集產(chǎn)品往往是AI基礎(chǔ)數(shù)據(jù)服務(wù)商根據(jù)自身積累產(chǎn)出的標(biāo)準(zhǔn)數(shù)據(jù)集,以語(yǔ)音數(shù)據(jù)集為主,主體偏普通話語(yǔ)音、英文語(yǔ)音、方言語(yǔ)音等;為保證算法優(yōu)勢(shì),客戶更多采用定制化服務(wù),由客戶提出具體需求,數(shù)據(jù)服務(wù)商或直接對(duì)客戶提供的數(shù)據(jù)進(jìn)行標(biāo)注、或?qū)?shù)據(jù)進(jìn)行采集并標(biāo)注。大型的需求方,為保障數(shù)據(jù)的安全,往往提供Web形式的自有標(biāo)注平臺(tái)給執(zhí)行方,以此對(duì)整體項(xiàng)目進(jìn)行把控,也有一些AI基礎(chǔ)數(shù)據(jù)服務(wù)商向客戶提供私有化平臺(tái)建設(shè)服務(wù),或?qū)⒆陨砥脚_(tái)與甲方系統(tǒng)兼容;除以上兩種形式外,部分AI基礎(chǔ)數(shù)據(jù)服務(wù)商還向算法服務(wù)進(jìn)行拓展,提供算法訓(xùn)練、模型搭建等服務(wù)。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展背景
人工智能經(jīng)濟(jì)崛起為基礎(chǔ)數(shù)據(jù)服務(wù)提供長(zhǎng)期向好的基本面
2010年語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域產(chǎn)生重大突破,國(guó)內(nèi)開(kāi)始萌生AI概念。到2015年,國(guó)內(nèi)迎來(lái)人工智能創(chuàng)業(yè)熱潮,獨(dú)角獸不斷涌現(xiàn),融資記錄被不斷打破。2012年-2019年8月人工智能領(lǐng)域共發(fā)生2787件投融資事件,總?cè)谫Y額達(dá)4740億元,人工智能成為最炙手可熱的融資熱點(diǎn),百度、阿里、騰訊、京東、華為等科技企業(yè)也紛紛加注。2017年至今,產(chǎn)業(yè)落地成為AI行業(yè)的主流,人工智能賦能實(shí)體經(jīng)濟(jì)保持高速發(fā)展態(tài)勢(shì),涉及行業(yè)包括安防、金融、零售、交通、教育、醫(yī)療、營(yíng)銷、工業(yè)、農(nóng)業(yè)、企服等眾多領(lǐng)域。下游的爆發(fā)式增長(zhǎng)為人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展提供了長(zhǎng)期向好的基本面。
數(shù)據(jù)量呈指數(shù)式增長(zhǎng),非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用依賴于清洗標(biāo)注
PC、互聯(lián)網(wǎng)、消費(fèi)級(jí)移動(dòng)設(shè)備的興起宣告了數(shù)據(jù)時(shí)代的來(lái)臨,物聯(lián)網(wǎng)的發(fā)展更使線下業(yè)務(wù)產(chǎn)生的大量數(shù)據(jù)被采集起來(lái),數(shù)據(jù)量呈指數(shù)式增長(zhǎng),據(jù)IDC統(tǒng)計(jì),全球每年生產(chǎn)的數(shù)據(jù)量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結(jié)構(gòu)化數(shù)據(jù)。過(guò)去計(jì)算機(jī)主要處理結(jié)構(gòu)化數(shù)據(jù),人工智能模型卻以處理非結(jié)構(gòu)化數(shù)據(jù)見(jiàn)長(zhǎng),但“玉不琢不成器”,數(shù)據(jù)經(jīng)過(guò)清洗與標(biāo)注才能被喚醒價(jià)值,這就產(chǎn)生了源源不斷的清洗與標(biāo)注需求。在我國(guó),每年需要進(jìn)行標(biāo)注的語(yǔ)音數(shù)據(jù)超過(guò)200萬(wàn)小時(shí),圖片則有數(shù)億張。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈
AI基礎(chǔ)數(shù)據(jù)服務(wù)方是行業(yè)核心環(huán)節(jié)
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜
產(chǎn)業(yè)上下游普遍存在交叉
AI基礎(chǔ)數(shù)據(jù)服務(wù)方的上游是數(shù)據(jù)生產(chǎn)和外包提供者,下游是AI算法研發(fā)單位,AI基礎(chǔ)數(shù)據(jù)服務(wù)方通過(guò)數(shù)據(jù)處理能力和項(xiàng)目管理能力為其提供整體的數(shù)據(jù)資源服務(wù)。 AI基礎(chǔ)數(shù)據(jù)服務(wù)方整體有兩大類,一種是具備自有的標(biāo)注基地或全職標(biāo)注團(tuán)隊(duì),這類企業(yè)也參與產(chǎn)業(yè)上游部分直接提供產(chǎn)能資源,另一種是依靠眾包或外包模式,專注于數(shù)據(jù)產(chǎn)品的開(kāi)發(fā)與項(xiàng)目執(zhí)行。下游部分AI公司擁有自己的標(biāo)注工具,也可通過(guò)AI中臺(tái)獲取一些通用標(biāo)注工具,同時(shí)一些數(shù)據(jù)需求大的企業(yè)還孵化了自己的數(shù)據(jù)服務(wù)團(tuán)隊(duì)。整體而言,產(chǎn)業(yè)上下游普遍存在交叉關(guān)系。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)投融資
融資規(guī)模集中于千萬(wàn)量級(jí),早期融資項(xiàng)目居多
從融資規(guī)模來(lái)看,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的融資多集中在千萬(wàn)級(jí)別。從時(shí)間維度來(lái)看,2015年人工智能基礎(chǔ)數(shù)據(jù)服務(wù)商獲得的融資金額相對(duì)較高,標(biāo)志著行業(yè)初露頭角,受到資本的認(rèn)可。從獲得融資的企業(yè)數(shù)量來(lái)看,目前獲得融資的玩家并不多,資本市場(chǎng)表現(xiàn)的活躍度不高。從融資輪次來(lái)看,大部分融資仍然集中于早期融資,目前上市的企業(yè)僅掛牌新三板的數(shù)據(jù)堂一家(不考慮科技公司內(nèi)部孵化的基礎(chǔ)數(shù)據(jù)服務(wù)商)。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)毛利率普遍較高,但為保持與人工智能市場(chǎng)前沿算法的匹配,需要投入大量研發(fā)成本進(jìn)行數(shù)據(jù)處理平臺(tái)與工具的研發(fā)升級(jí),因此對(duì)融資仍有較強(qiáng)依賴。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)商業(yè)模式
生產(chǎn)、獲客、部署合力驅(qū)動(dòng)發(fā)展
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)是典型的To B型業(yè)務(wù),商業(yè)模式較為穩(wěn)定。在生產(chǎn)方面,主要通過(guò)自建標(biāo)注基地或標(biāo)注團(tuán)隊(duì)、搭建眾包平臺(tái)、采購(gòu)供應(yīng)商外包服務(wù)(BPO)等模式實(shí)現(xiàn)生產(chǎn)運(yùn)營(yíng),大多企業(yè)主要采取眾包與外包模式,百度數(shù)據(jù)眾包、倍賽等企業(yè)自建標(biāo)注基地或全職標(biāo)注團(tuán)隊(duì),對(duì)于培訓(xùn)較高素質(zhì)工作人員、完善團(tuán)隊(duì)管理有積極意義;在獲客方面,主要通過(guò)口碑傳播、學(xué)術(shù)會(huì)議與展會(huì)及代理渠道等模式進(jìn)入市場(chǎng),對(duì)銷售人員熟悉市場(chǎng)趨勢(shì)、客戶需求的要求較高;在實(shí)施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應(yīng)對(duì)客戶對(duì)數(shù)據(jù)安全、交付周期與成本的個(gè)性化需求。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模
2025年市場(chǎng)規(guī)模將突破百億,行業(yè)年復(fù)合增長(zhǎng)率為23.5%
2018年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比86.2%,數(shù)據(jù)集產(chǎn)品占比12.9%,其他數(shù)據(jù)資源應(yīng)用服務(wù)占比0.9%;行業(yè)年復(fù)合增長(zhǎng)率為23.5%,預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破110億元。從整體增速來(lái)看,行業(yè)發(fā)展較為穩(wěn)健,下游人工智能行業(yè)持續(xù)發(fā)力將形成長(zhǎng)期利好。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)細(xì)分結(jié)構(gòu)
純標(biāo)注服務(wù)為主體,由供應(yīng)商提供服務(wù)占79%
2018年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)以語(yǔ)音、視覺(jué)、NLP領(lǐng)域的標(biāo)注服務(wù)為主,同時(shí)提供采集與標(biāo)注服務(wù)占比較少,這是由于生數(shù)據(jù)由需求方提供的情況較多,但這并不意味著市場(chǎng)中數(shù)據(jù)采集需求弱,相反,人工智能技術(shù)落地后產(chǎn)生了大量新興垂直領(lǐng)域的數(shù)據(jù)需求,然而這些數(shù)據(jù)采集難度大,能夠提供相關(guān)采集工具和服務(wù)的供應(yīng)商將獲取競(jìng)爭(zhēng)優(yōu)勢(shì)。市場(chǎng)供給方主要由企業(yè)自建或直接獲取外包團(tuán)隊(duì)的形式以及供應(yīng)商組成,又以供應(yīng)商為行業(yè)主要支撐力量,占比79%。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)格局
行業(yè)將提升至較高集中度,CR5占26%市場(chǎng)份額
目前人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR5占26%市場(chǎng)份額,行業(yè)集中度較為適中,既非寡占型市場(chǎng)也非充分競(jìng)爭(zhēng)市場(chǎng),這一方面是由于百度數(shù)據(jù)眾包、海天瑞聲、數(shù)據(jù)堂等企業(yè)進(jìn)入市場(chǎng)較早,積累了較多客戶資源,另一方面則是由于下游企業(yè)之前多采用公開(kāi)數(shù)據(jù)集訓(xùn)練模型,對(duì)數(shù)據(jù)的高精度要求由來(lái)尚短,受生態(tài)傳導(dǎo)效應(yīng)滯后影響,市場(chǎng)門(mén)檻還不顯著,資金與研發(fā)實(shí)力較為薄弱的中小企業(yè)還有較強(qiáng)的發(fā)展土壤。然而未來(lái),隨著下游企業(yè)發(fā)展壯大,直接使用外包團(tuán)隊(duì)成本低廉、數(shù)據(jù)安全可控性強(qiáng),一些基礎(chǔ)性需求將由下游企業(yè)自給自足,外部的數(shù)據(jù)服務(wù)商現(xiàn)有的存量市場(chǎng)面臨下降,因此必須承擔(dān)高難度、前沿獨(dú)特性任務(wù),這就要求其自身投入高精度、專業(yè)化數(shù)據(jù)處理工具的研發(fā)和人工智能算法基礎(chǔ)研究,以把握客戶需求,開(kāi)拓增量市場(chǎng),因此資金與研發(fā)實(shí)力成為較高行業(yè)門(mén)檻,同時(shí)受近年資本市場(chǎng)冷卻影響,一批中小型廠商面臨業(yè)務(wù)收縮,再者部分廠商如倍賽開(kāi)始在業(yè)內(nèi)并購(gòu),參考海外數(shù)據(jù)服務(wù)市場(chǎng)發(fā)展情況(海外行業(yè)巨頭Appen多次并購(gòu)其他企業(yè)),并購(gòu)也將成為市場(chǎng)趨勢(shì),多種因素疊加影響下,行業(yè)集中度將提升。
視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)現(xiàn)狀
人像與OCR數(shù)據(jù)是視圖基礎(chǔ)數(shù)據(jù)服務(wù)的主流
在不考慮自動(dòng)駕駛的前提下,2018年視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)達(dá)到6.6億元,人像與OCR數(shù)據(jù)是視圖基礎(chǔ)數(shù)據(jù)服務(wù)的主流,尤其人像數(shù)據(jù)占市場(chǎng)的42.9%。OCR占27%,其他的人體識(shí)別數(shù)據(jù)、商品識(shí)別數(shù)據(jù)、工業(yè)質(zhì)檢數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)及其他新場(chǎng)景數(shù)據(jù)等較為分散,合計(jì)占市場(chǎng)30.1%。
視圖基礎(chǔ)數(shù)據(jù)服務(wù)技術(shù)趨勢(shì)
針對(duì)算法研發(fā)方向判斷數(shù)據(jù)需求,挖掘增量市場(chǎng)
按照數(shù)據(jù)使用方向,可以劃分為新算法模型搭建與研發(fā)、在已有算法基礎(chǔ)上增加新模塊、解決方案交付過(guò)程中定制優(yōu)化等三類,其中新算法模型搭建與研發(fā)和在已有算法基礎(chǔ)上增加新模塊類型的數(shù)據(jù)需求是可以根據(jù)相應(yīng)機(jī)器視覺(jué)算法的前沿研發(fā)方向來(lái)判斷預(yù)測(cè)的。例如,就智慧城市場(chǎng)景而言,針對(duì)漢族的人臉識(shí)別和視頻結(jié)構(gòu)化已較為成熟,在實(shí)際應(yīng)用場(chǎng)景中還需針對(duì)少數(shù)民族和其他人種進(jìn)行優(yōu)化以提升整體算法準(zhǔn)確率,此外,跨鏡追蹤成為場(chǎng)景研發(fā)熱點(diǎn),相應(yīng)的跨攝像頭數(shù)據(jù)如何標(biāo)注對(duì)算法訓(xùn)練也會(huì)產(chǎn)生較大影響,再及,深度相機(jī)可以幫計(jì)算機(jī)讀懂三維立體的監(jiān)控視頻,還能夠較好地解決復(fù)雜光照條件下視圖數(shù)據(jù)采集的問(wèn)題,也將在未來(lái)成為重要的研發(fā)方向,綜上,多民族、多人種數(shù)據(jù)、跨攝像頭數(shù)據(jù)、3D數(shù)據(jù)的采集與標(biāo)注服務(wù)將為視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的發(fā)展帶來(lái)增量空間,OCR、手機(jī)、零售等其他領(lǐng)域也同理可針對(duì)算法研發(fā)方向挖掘增量市場(chǎng)。
自動(dòng)駕駛基礎(chǔ)數(shù)據(jù)服務(wù)應(yīng)用場(chǎng)景
算法尚未成熟,對(duì)數(shù)據(jù)有長(zhǎng)期需求,且缺口仍在
L3級(jí)別以上的自動(dòng)駕駛系統(tǒng)主要有感知、定位、預(yù)測(cè)、決策和控制五部分,其對(duì)于計(jì)算機(jī)視覺(jué)技術(shù)的需求度遠(yuǎn)高于ADAS,系統(tǒng)需要對(duì)雷達(dá)、攝像頭等傳感器采集的點(diǎn)云和圖像數(shù)據(jù)進(jìn)行抽取、處理和融合,構(gòu)建車(chē)輛行駛環(huán)境,為預(yù)測(cè)和決策做依據(jù),這對(duì)于算法的準(zhǔn)確性和實(shí)時(shí)性有極大考驗(yàn)。目前自動(dòng)駕駛的視覺(jué)技術(shù)主要應(yīng)用有監(jiān)督的深度學(xué)習(xí),是基于已知變量和因變量推導(dǎo)函數(shù)關(guān)系的算法模型,需要大量的標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和調(diào)優(yōu)。在世界級(jí)無(wú)人駕駛大賽中,主辦方往往提供近億張圖片、數(shù)十萬(wàn)張標(biāo)注圖片供參賽團(tuán)隊(duì)訓(xùn)練使用;在路測(cè)或真實(shí)道路駕駛時(shí),如人車(chē)混雜、分布稠密、行為多變等復(fù)雜環(huán)境問(wèn)題更需要海量的真實(shí)路況數(shù)據(jù)不斷對(duì)算法進(jìn)行優(yōu)化,才能保障無(wú)人駕駛車(chē)輛正??捎?。如今國(guó)內(nèi)自動(dòng)駕駛飛速發(fā)展,AI公司、科技公司、高精地圖廠商、車(chē)廠等參與者眾多,該領(lǐng)域的數(shù)據(jù)采集和標(biāo)注需求已經(jīng)成為AI基礎(chǔ)數(shù)據(jù)服務(wù)的主要項(xiàng)目之一,且自動(dòng)駕駛算法應(yīng)用仍待優(yōu)化,數(shù)據(jù)需求缺口仍在,市場(chǎng)遠(yuǎn)未飽和。
自動(dòng)駕駛基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)現(xiàn)狀
2025年采標(biāo)規(guī)模將超24億,科技公司和車(chē)廠是主要需求方
自動(dòng)駕駛基礎(chǔ)數(shù)據(jù)主要是道路交通圖像、障礙物圖像、車(chē)輛行駛環(huán)境圖像等,需求方以科技公司、汽車(chē)廠商和高精地圖廠商為主,2018年自動(dòng)駕駛行業(yè)基礎(chǔ)數(shù)據(jù)服務(wù)規(guī)模為5.76億元,預(yù)計(jì)2025年將超24億元,三方規(guī)模占比分別為49%、47.2%和3.8%,行業(yè)數(shù)據(jù)總?cè)蝿?wù)量超一億張,2D圖像標(biāo)注與3D點(diǎn)云標(biāo)注任務(wù)量基本為2:1。其中高精地圖廠商算法較為成熟,數(shù)據(jù)自動(dòng)化標(biāo)注程度可達(dá)90%左右,外包需求較少;以百度、圖森未來(lái)為代表的自動(dòng)駕駛科技公司一直是該領(lǐng)域基礎(chǔ)數(shù)據(jù)服務(wù)的主要買(mǎi)方,平均各家算法訓(xùn)練圖像數(shù)據(jù)累積需求在千萬(wàn)級(jí)以上,隨著落地項(xiàng)目進(jìn)程加快,將會(huì)有更多細(xì)分場(chǎng)景的需求產(chǎn)生;近幾年,汽車(chē)廠商在ADAS和自動(dòng)駕駛方向的投入明顯,上汽、吉利等廠商年投入均可達(dá)數(shù)億元,對(duì)于數(shù)據(jù)的采集和標(biāo)注需求也逐年增加,預(yù)計(jì)未來(lái)3年中,汽車(chē)廠商將成為需求主力。
智能交互基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)現(xiàn)狀
遠(yuǎn)場(chǎng)語(yǔ)音交互成為主流需求,中文類數(shù)據(jù)仍占據(jù)市場(chǎng)核心
2018年語(yǔ)音交互相關(guān)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模達(dá)到13.5億元。語(yǔ)音交互主要分為近場(chǎng)交互、中場(chǎng)交互和遠(yuǎn)場(chǎng)交互,以智能影音家居、可交互機(jī)器人和車(chē)機(jī)為代表的中遠(yuǎn)場(chǎng)交互類數(shù)據(jù)服務(wù)需求合計(jì)占到智能交互基礎(chǔ)數(shù)據(jù)服務(wù)的68%,成為當(dāng)前智能交互基礎(chǔ)數(shù)據(jù)服務(wù)的主流需求,因此針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互的低噪聲環(huán)境服務(wù)具有較強(qiáng)發(fā)展?jié)摿妥h價(jià)能力。在服務(wù)語(yǔ)種上,中文(含方言)服務(wù)占據(jù)71%的市場(chǎng)份額,外語(yǔ)種資源相對(duì)稀缺,采集和標(biāo)注難度較大,成本相對(duì)更高,目前占29%的市場(chǎng)份額。
智能交互基礎(chǔ)數(shù)據(jù)服務(wù)技術(shù)趨勢(shì)
實(shí)現(xiàn)跨語(yǔ)音識(shí)別、語(yǔ)義理解的復(fù)合數(shù)據(jù)標(biāo)注
目前企業(yè)在智能交互系統(tǒng)的建設(shè)中,對(duì)單純的語(yǔ)音識(shí)別或合成方面技術(shù)能力相對(duì)較完善,而在上下文理解、多輪對(duì)話、情緒識(shí)別、模糊語(yǔ)義識(shí)別、意圖判斷等方面的研發(fā)痛點(diǎn)更強(qiáng),根據(jù)智能交互系統(tǒng)算法的發(fā)展,迭代并設(shè)計(jì)符合算法需求的NLP數(shù)據(jù)產(chǎn)品,有助于從數(shù)據(jù)層面推動(dòng)智能交互系統(tǒng)的發(fā)展。特別的,對(duì)話系統(tǒng)的效果對(duì)標(biāo)注數(shù)據(jù)的質(zhì)量和規(guī)模依賴性很強(qiáng),但目前受標(biāo)注數(shù)據(jù)和模型能力的雙重制約,對(duì)話流程還無(wú)法對(duì)語(yǔ)音、語(yǔ)義整個(gè)交互流程打通,而實(shí)現(xiàn)跨語(yǔ)音識(shí)別、語(yǔ)義理解的復(fù)合數(shù)據(jù)標(biāo)注可以幫助減輕語(yǔ)音信息與文本信息之間的信息誤傳導(dǎo),對(duì)整個(gè)對(duì)話流程效果增強(qiáng)能夠產(chǎn)生積極影響,將增加智能交互基礎(chǔ)數(shù)據(jù)服務(wù)探索的可能性。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)客戶定位
客戶分為AI公司、科技公司、科研機(jī)構(gòu)、行業(yè)企業(yè)四類
從需求方來(lái)看,AI公司和科技公司占主要份額,AI公司更聚焦于視覺(jué)、語(yǔ)音等某一類型的基礎(chǔ)數(shù)據(jù)服務(wù),而科技公司結(jié)合集團(tuán)優(yōu)勢(shì),向人工智能整體發(fā)力,不同部門(mén)會(huì)產(chǎn)生多類型數(shù)據(jù)需求,科研機(jī)構(gòu)需求占比較小。此外傳統(tǒng)意義上的行業(yè)企業(yè),如汽車(chē)廠商、手機(jī)品牌商、安防廠商等傳統(tǒng)企業(yè)圍繞自身業(yè)務(wù)進(jìn)行技術(shù)拓展,也開(kāi)始產(chǎn)生AI基礎(chǔ)數(shù)據(jù)需求,并且量級(jí)逐漸增大,未來(lái)將釋放更多市場(chǎng)空間。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)核心需求類型
AI應(yīng)用三大階段,對(duì)基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)生差異化需求
企業(yè)應(yīng)用人工智能算法要經(jīng)歷研發(fā)、訓(xùn)練和落地三個(gè)階段,不同階段對(duì)于AI基礎(chǔ)數(shù)據(jù)服務(wù)也有差異化需求。研發(fā)需求是新算法研發(fā)拓展時(shí)產(chǎn)生的數(shù)據(jù)需求,一般量級(jí)較大,初期多采用標(biāo)準(zhǔn)數(shù)據(jù)集產(chǎn)品訓(xùn)練,中后期則需要專業(yè)的數(shù)據(jù)定制采標(biāo)服務(wù);訓(xùn)練需求是通過(guò)標(biāo)注數(shù)據(jù)對(duì)已有算法的準(zhǔn)確率、魯棒性等能力進(jìn)行優(yōu)化,是市場(chǎng)中的主要需求,以定制化服務(wù)為主,對(duì)算法的準(zhǔn)確性有較高要求;落地場(chǎng)景的業(yè)務(wù)需求中算法較為成熟,涉及的數(shù)據(jù)采集和標(biāo)注更貼合具體業(yè)務(wù),如飛機(jī)保養(yǎng)中的涂料識(shí)別數(shù)據(jù)等,對(duì)于標(biāo)注能力和供應(yīng)商主動(dòng)提出優(yōu)化意見(jiàn)的服務(wù)意識(shí)有較強(qiáng)要求。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)需求痛點(diǎn)
五大需求痛點(diǎn)決定AI基礎(chǔ)數(shù)據(jù)服務(wù)商的服務(wù)標(biāo)準(zhǔn)
目前需求方在選擇數(shù)據(jù)服務(wù)時(shí)往往會(huì)遇到數(shù)據(jù)安全、采標(biāo)能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù)能力等痛點(diǎn)。對(duì)于數(shù)據(jù)安全,需求方希望基礎(chǔ)數(shù)據(jù)服務(wù)商有明確具體的安全管理流程,對(duì)數(shù)據(jù)傳輸、存儲(chǔ),以及結(jié)項(xiàng)后的數(shù)據(jù)銷毀等環(huán)節(jié)比較重視。在采標(biāo)能力方面,需求方算法越來(lái)越貼近業(yè)務(wù),希望數(shù)據(jù)服務(wù)商對(duì)于自動(dòng)駕駛、工業(yè)等有一定門(mén)檻的領(lǐng)域有采集能力,并且能理解客戶意圖,配合標(biāo)注,甚至可以提出標(biāo)注建議;根據(jù)市場(chǎng)反應(yīng),大多數(shù)數(shù)據(jù)服務(wù)公司首次交付項(xiàng)目時(shí),數(shù)據(jù)的準(zhǔn)確率普遍偏低,都需要一到兩次的返工,故需求方對(duì)無(wú)效數(shù)據(jù)少、準(zhǔn)確率高的公司更加青睞。對(duì)于執(zhí)行效率,一般AI基礎(chǔ)數(shù)據(jù)服務(wù)商都能在項(xiàng)目周期內(nèi)完成,但管理能力較弱的公司很難在兼顧多個(gè)項(xiàng)目時(shí)做到精力集中、高質(zhì)量地服務(wù)客戶,同時(shí)執(zhí)行團(tuán)隊(duì)的素養(yǎng)與信譽(yù)也是重要影響因素。服務(wù)意識(shí)是一項(xiàng)軟實(shí)力,需要AI基礎(chǔ)數(shù)據(jù)服務(wù)商能夠積極配合、快速響應(yīng)需求方要求。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)發(fā)展建議
企業(yè)由被動(dòng)執(zhí)行向主動(dòng)服務(wù)的意識(shí)躍遷
單純依據(jù)客戶各個(gè)項(xiàng)目的訴求進(jìn)行數(shù)據(jù)采集和標(biāo)注屬于被動(dòng)執(zhí)行,主觀能動(dòng)性低、行業(yè)邊界有限,各家公司的產(chǎn)品和服務(wù)趨于同質(zhì)化、競(jìng)爭(zhēng)呈膠著狀態(tài),制約著AI基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展。通過(guò)對(duì)需求方的研究,發(fā)現(xiàn)除安全性、質(zhì)量、效率等核心關(guān)注點(diǎn)之外,越來(lái)越多的需求方對(duì)數(shù)據(jù)服務(wù)公司產(chǎn)生了主動(dòng)服務(wù)的需求,希望數(shù)據(jù)公司能夠更懂算法技術(shù)、更懂需求場(chǎng)景,甚至能參與到算法的研發(fā)中來(lái),給出數(shù)據(jù)采標(biāo)方面的優(yōu)化建議,這也為數(shù)據(jù)服務(wù)商形成差異化競(jìng)爭(zhēng)帶來(lái)了契機(jī),尤其是在AI落地階段,在垂直場(chǎng)景中能夠形成一套集調(diào)研、咨詢、設(shè)計(jì)、采集、標(biāo)注為一體的AI基礎(chǔ)數(shù)據(jù)整體解決辦法,將在收入和業(yè)務(wù)邊界上實(shí)現(xiàn)突破。