來源:獵云精選;文/孫媛
近一年來,數(shù)據(jù)標(biāo)注賽道呈現(xiàn)了一些不同。
在企業(yè)端,相較年初,相關(guān)賽道玩家融資宣發(fā)變少了,資本似乎變得更理智;在“民工”端,數(shù)據(jù)標(biāo)注員的工資繼續(xù)走低,在“月入不過5000,單價(jià)從5毛降到4分”的收入變化下,似乎預(yù)示著簡單的數(shù)據(jù)標(biāo)注將會(huì)被AI取代。
投資人Jerry說,大家現(xiàn)在已經(jīng)不單獨(dú)談數(shù)據(jù)標(biāo)注的概念,而是升級(jí)談更火的數(shù)據(jù)服務(wù)。例如,圍繞數(shù)據(jù)服務(wù)新增業(yè)務(wù),給大模型公司主動(dòng)提供數(shù)據(jù),或者和大模型公司一起服務(wù)于主機(jī)廠。
跟隨產(chǎn)業(yè)發(fā)展,不難發(fā)現(xiàn),數(shù)據(jù)標(biāo)注的概念和服務(wù)內(nèi)容在升級(jí),玩家們也在復(fù)用其原有的管理體系、研發(fā)能力等,去解決圍繞數(shù)據(jù)的行業(yè)痛點(diǎn),結(jié)合行業(yè)變化來逐步拓寬業(yè)務(wù)范圍。
事實(shí)上,Jerry所言早有全球數(shù)據(jù)標(biāo)注領(lǐng)域的先驅(qū)Scale AI在踐行。
這家估值73億美金獨(dú)角獸,成立于2016年,核心業(yè)務(wù)就是數(shù)據(jù)標(biāo)注,通過快速捕捉AI行業(yè)趨勢(shì)推新,已從自動(dòng)駕駛場景起家后切入政府、電商、機(jī)器人、大模型等場景,提供各類工具、平臺(tái)和服務(wù)。
而在國內(nèi),也有這么一家先行者,它僅次于Scale AI一年后成立,創(chuàng)辦伊始就獲得了水木清華校友基金、老鷹基金、天使灣創(chuàng)投等5家機(jī)構(gòu)進(jìn)行天使輪“團(tuán)購”,隨后青銳創(chuàng)投、華映資本、厚天資本、瑞夏投資更是相繼押注。
它便是以自動(dòng)化解法切入AI數(shù)據(jù)標(biāo)注和數(shù)據(jù)管理服務(wù)的星塵數(shù)據(jù)。
80后數(shù)據(jù)科學(xué)家回國創(chuàng)業(yè),以自動(dòng)化做解法
星塵數(shù)據(jù)掌舵者,是80后數(shù)據(jù)科學(xué)家章磊。
星塵數(shù)據(jù)創(chuàng)始人兼CEO 章磊
在海外就職期間,章磊先在華爾街做數(shù)據(jù)量化,后又去硅谷做自動(dòng)化投資相關(guān)的算法工作。期間,他在華爾街工作期間開發(fā)的底層風(fēng)控算法曾被美國聯(lián)邦儲(chǔ)蓄局作為壓測標(biāo)準(zhǔn),在硅谷開發(fā)過世界首款股權(quán)投資機(jī)器人。
回國后,章磊第一次創(chuàng)業(yè),是以CTO的身份做了一家與自動(dòng)化投資策略相關(guān)的公司,該項(xiàng)目需要通過大量NLP(自然語言處理)的數(shù)據(jù)來進(jìn)行投資決策,當(dāng)時(shí)投資年化已做到100%。
也正是這次創(chuàng)業(yè),讓章磊基于對(duì)數(shù)據(jù)標(biāo)注的大量需求,與數(shù)據(jù)堂、龍貓、百度這些數(shù)據(jù)標(biāo)注公司打起交道,卻意外發(fā)現(xiàn)供給側(cè)與需求側(cè)的極大gap。
他看到,自動(dòng)化投資需要數(shù)據(jù)側(cè)和算法側(cè)能夠進(jìn)行深入交流,即數(shù)據(jù)策略,僅僅按每人每天進(jìn)行數(shù)據(jù)標(biāo)注并不能解決算法工程師的問題。另外,由于標(biāo)注工具簡陋不好用,標(biāo)注員產(chǎn)能也不高,既無法滿足企業(yè)的工期需求,也無法提高標(biāo)注員的個(gè)人收入。
當(dāng)時(shí)在供給側(cè)端,數(shù)據(jù)標(biāo)注公司理念還停留在低認(rèn)知、低附加性屬性的人力外包模式,更多是在賺取人力差,而算法側(cè)本質(zhì)需求是隨時(shí)協(xié)同迭代,這就導(dǎo)致商湯曠世百度等高認(rèn)知的早期AI公司只能內(nèi)部自建標(biāo)注、數(shù)據(jù)生產(chǎn)的管道。
章磊坦言,雖然從人力或銷售端來切入,可以對(duì)人力進(jìn)行標(biāo)準(zhǔn)化的培訓(xùn)操作上崗,通過職高院校之類的合作來降低人員供給端的成本,但這對(duì)于國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)來說治標(biāo)不治本。
當(dāng)時(shí),他就有一個(gè)判斷,這種靠人力差價(jià)的生意最終會(huì)隨著自動(dòng)化技術(shù)發(fā)展而因?yàn)榧兇饪咳肆Χコ杀緝?yōu)勢(shì),甚至?xí)潛p。
在低進(jìn)入、高認(rèn)知的行業(yè)門檻特點(diǎn)下,章磊認(rèn)為,從長遠(yuǎn)考慮,自動(dòng)化才是更優(yōu)解。
“Autolabeling本身是一套組合拳,里面有很多細(xì)節(jié),譬如對(duì)感知決策、大模型的任務(wù)所需要的自動(dòng)化完全不一樣,需要有很高的算法認(rèn)知去用最新的技術(shù)來解決問題,并且把它落地產(chǎn)品化,成為可復(fù)制的工具鏈。目前行業(yè)內(nèi)玩家不具備這樣的能力,更多是在銷售端或運(yùn)營端有一些優(yōu)勢(shì)。”
為此,逐鹿數(shù)據(jù)標(biāo)注再創(chuàng)業(yè),基于團(tuán)隊(duì)的算法以及硅谷背景,章磊決定“從甲方出來解決甲方問題”,從三方面出發(fā)。
一,成立一個(gè)算法認(rèn)知的團(tuán)隊(duì)去真正解決行業(yè)痛點(diǎn),具備數(shù)據(jù)策略專家的能力;二,用工具鏈去做好數(shù)據(jù)服務(wù),包括數(shù)據(jù)閉環(huán)管理的工具、數(shù)據(jù)標(biāo)注、項(xiàng)目管理、數(shù)據(jù)檢索等輔助功能,打造云端工廠的概念;三,讓數(shù)據(jù)處理可以極大被自動(dòng)化,提高到50%至90%甚至以上,形成一個(gè)高度自動(dòng)化的數(shù)據(jù)生產(chǎn)管道的終局。
于是,有別于人力服務(wù)型數(shù)據(jù)標(biāo)注企業(yè),想在國內(nèi)走出Scale AI之路的星塵數(shù)據(jù)于2017年應(yīng)運(yùn)而生。
以AI全生命周期的數(shù)據(jù)閉環(huán)為基座,把數(shù)據(jù)價(jià)值產(chǎn)品化
從Scale AI的發(fā)展態(tài)勢(shì)來看,自動(dòng)化這條路一旦走通,具備領(lǐng)先優(yōu)勢(shì)后可以一招鮮占領(lǐng)生態(tài)位,但也并不好走。
算法層面需要根據(jù)產(chǎn)品的反饋和用戶實(shí)際的人因工程來分析進(jìn)行優(yōu)化,除了團(tuán)隊(duì)要具備能力基因外,還需要以最后實(shí)際落地成果來進(jìn)行驗(yàn)證,譬如其標(biāo)注的數(shù)據(jù)策略、工具鏈的優(yōu)化、產(chǎn)品形態(tài)、算法能不能夠跟上等。
星塵的商務(wù)和項(xiàng)目團(tuán)隊(duì)每次跟客戶溝通和pitch時(shí),都被要求跟客戶認(rèn)知在同一水平,成為行業(yè)的數(shù)據(jù)策略專家。
“特別是大模型的公司,因?yàn)槠鋽?shù)據(jù)生成面臨著很多不確定性和變化,就需要能夠通過數(shù)據(jù)策略找到各種問題,并且和客戶反饋并商量去優(yōu)化最終效果,以模型效果為目標(biāo)去發(fā)力,提升客戶算法效果?!?/p>
過去6年,星塵數(shù)據(jù)在行業(yè)從野蠻生長行至盈利爬坡的過程中也沒少踩坑,但也正因此,在服務(wù)50多家車企和自動(dòng)駕駛公司、經(jīng)歷上千個(gè)項(xiàng)目打磨后,在點(diǎn)滴中積累了算法和產(chǎn)品的迭代能力,其自動(dòng)化標(biāo)注平臺(tái)Rosetta平臺(tái)現(xiàn)可提供數(shù)百個(gè)標(biāo)注功能,支持4DBEV、圖像、點(diǎn)云、文本、語音、采集等在內(nèi)的100+種主流標(biāo)注場景。
其中,星塵數(shù)據(jù)的數(shù)據(jù)閉環(huán)解決方案是其Rosetta3.0平臺(tái)的一大亮點(diǎn)。章磊透露,今年年底,星塵數(shù)據(jù)即將發(fā)布全新的AI數(shù)據(jù)管理平臺(tái)MorningStar,打通數(shù)據(jù)落盤、流程編排、數(shù)據(jù)管理、數(shù)據(jù)檢索、難例發(fā)現(xiàn)、數(shù)據(jù)送標(biāo)、算法管理、推理管理等機(jī)器學(xué)習(xí)閉環(huán)全鏈路,持續(xù)提升算法迭代速度。
在一個(gè)完整的數(shù)據(jù)閉環(huán)中,客戶可使用星塵數(shù)據(jù)提供的離線數(shù)據(jù)包進(jìn)行基礎(chǔ)版模型訓(xùn)練,星塵數(shù)據(jù)標(biāo)注系統(tǒng)通過API與客戶算法系統(tǒng)進(jìn)行交互,動(dòng)態(tài)感知客戶模型效果,基于模型各版本迭代,在經(jīng)歷幾次迭代后,不僅沉淀了有效數(shù)據(jù),還節(jié)省了數(shù)據(jù)成本。
同時(shí),星塵數(shù)據(jù)還可以在海量數(shù)據(jù)中找到真正有價(jià)值的數(shù)據(jù)幫助客戶訓(xùn)練模型,并利用自有Benchmark數(shù)據(jù)集評(píng)測模型效果。模型上線后,行車數(shù)據(jù)可用于模型迭代,形成數(shù)據(jù)閉環(huán)。該方案通過打通星塵數(shù)據(jù)標(biāo)注系統(tǒng)和客戶算法系統(tǒng),實(shí)現(xiàn)主動(dòng)學(xué)習(xí)、分批訓(xùn)練和動(dòng)態(tài)發(fā)掘有價(jià)值數(shù)據(jù),從而降低數(shù)據(jù)標(biāo)注規(guī)模,節(jié)省標(biāo)注成本。
星塵數(shù)據(jù)AI數(shù)據(jù)管理平臺(tái)Morningstar
據(jù)悉,具備算法認(rèn)知和迭代能力的產(chǎn)品(簡稱技術(shù)迭代能力)的客戶,譬如自動(dòng)駕駛感知決策賽道上的Tier1自動(dòng)駕駛公司和造車新勢(shì)力等頭部技術(shù)客戶,以及大模型企業(yè),往往傾向于自研整個(gè)數(shù)據(jù)閉環(huán)的工具鏈,把一小部分工作通過找供應(yīng)商來合作。星塵數(shù)據(jù)通過技術(shù)匹配及形成閉環(huán),就能快速達(dá)成合作。
而不具備技術(shù)迭代能力的傳統(tǒng)車廠等腰部技術(shù)公司,則非常依賴于供應(yīng)商去合作組建數(shù)據(jù)生產(chǎn)線。雖然增量很大,但其理念和合作方式上沒“整明白”,導(dǎo)致數(shù)據(jù)側(cè)和算法側(cè)都沒有很好的一個(gè)合作方式。
通常情況下,往往技術(shù)側(cè)60分的車廠想要采購90分的供應(yīng)商,價(jià)格又得是行業(yè)最低,但數(shù)據(jù)側(cè)做到90分的前提是技術(shù)測也要90分,不然又跑不動(dòng),這就需要星塵去協(xié)同打造數(shù)據(jù)生命周期管理的數(shù)據(jù)閉環(huán)系統(tǒng),回歸業(yè)務(wù)本質(zhì)來適配以持續(xù)創(chuàng)造營收。
章磊透露,目前星塵數(shù)據(jù)客戶以每年2倍增速在發(fā)展,主要服務(wù)大模型和自動(dòng)駕駛。感知決策賽道上已服務(wù)了90%頭部自動(dòng)駕駛企業(yè),AGI方向的大客戶也開始增多,目前已經(jīng)和多家頭部的大模型客戶達(dá)成合作。
星塵已經(jīng)與華為在DataOps系統(tǒng)方面達(dá)成了戰(zhàn)略合作,共同服務(wù)于感知決策、通用人工智能等領(lǐng)域,為客戶提供更加完善的數(shù)據(jù)閉環(huán)工具和服務(wù)支持。
率先步入下一階段,華映跑來領(lǐng)投A輪
近一年來,隨著數(shù)據(jù)標(biāo)注走熱,VC開始尋求標(biāo)的,愷望數(shù)據(jù)、曼孚科技、整數(shù)智能等賽道玩家陸續(xù)官宣融資,星塵數(shù)據(jù)這個(gè)老玩家也在資本助力開始了加速賽。
在2022年5000萬元A輪融資中,華映資本則將橄欖枝扔給了章磊。
彼時(shí),華映資本管理合伙人章高男在看了行業(yè)若干個(gè)標(biāo)的后,作為技術(shù)創(chuàng)業(yè)出身的投資人,便與同樣有著技術(shù)背景的章磊一見如故,甚至表示,“這個(gè)行業(yè)要投就投星塵,要不就不投了?!?/p>
在章高男看來,技術(shù)足以區(qū)別真正的企業(yè)家和生意人,企業(yè)家懂得如何將技術(shù)用于再生產(chǎn)、將盈利用于投資,能目標(biāo)明確、通過產(chǎn)品化可復(fù)制的方式去把這盤棋做大。
于是,在幾面之緣之下,基于章高男對(duì)人的敏銳判斷,華映資本領(lǐng)投了星塵數(shù)據(jù)A輪融資。就在這輪融資中,還有一家VC對(duì)星塵后續(xù)發(fā)展助力頗大,那就是小米生態(tài)鏈機(jī)構(gòu)厚天資本。
也正是機(jī)構(gòu)方在管理和戰(zhàn)略上的加持,讓章磊帶領(lǐng)的星塵數(shù)據(jù)專注于既定路線用技術(shù)去解決行業(yè)的本質(zhì)問題,在眼下更具備“抗補(bǔ)貼”的能力。
章磊坦言,隨著數(shù)據(jù)標(biāo)注賽道微風(fēng)漸起,市場愈發(fā)激烈,甚至今年形成了以價(jià)換市“打補(bǔ)貼”的特殊情況。
“很多玩家為拿資本去搶占市場,或者是拿了資本被要求更激進(jìn)去搶市場。但這有兩個(gè)弊端,一是貼錢后,基于價(jià)格壓力很難做好服務(wù);二是今后很難跟車廠談價(jià)格。”
在這個(gè)過程中,章磊看到,車廠也因?yàn)橘I低入坑,但隨后也吃一塹長一智,逐步轉(zhuǎn)變采購邏輯,客戶端的認(rèn)知度在市場教育后也有所提高。
星塵數(shù)據(jù)合作的一家車廠就是如此。
據(jù)悉,該車廠想自己搭建數(shù)據(jù)工具鏈,剛好有數(shù)據(jù)標(biāo)注企業(yè)免費(fèi)提供了一款產(chǎn)品,等于為其省了幾百萬支出。
然而,由于產(chǎn)品中有各種各樣的bug需要處理,車廠不得已又投入了數(shù)百萬來改造這款工具來實(shí)現(xiàn)真正投產(chǎn)。雖然標(biāo)注成本紙面上還可以,但因?yàn)楦鞣N數(shù)據(jù)出問題導(dǎo)致工期耽誤,項(xiàng)目暫停又啟動(dòng),客戶對(duì)效率降低而導(dǎo)致的隱性成本支出怨聲載道。最后,為了保證數(shù)據(jù)的高效生成,這家車廠還是棄而選擇為可用產(chǎn)品付費(fèi)買單。
“車廠們逐步發(fā)現(xiàn),采購零部件那一套不適合放到軟件上。因?yàn)榱悴考幸恍┬阅苤笜?biāo)規(guī)范,但軟件特別是數(shù)據(jù)相關(guān)的產(chǎn)品迭代,不可能用一兩個(gè)紙面上的指標(biāo)來評(píng)估。星塵跟客戶去做技術(shù)匹配和長期合作過程當(dāng)中,會(huì)通過賦能聯(lián)合迭代、建模,實(shí)現(xiàn)降本增效?!?/p>
隨著感知決策以及大模型算法達(dá)到了需要不斷去以數(shù)據(jù)為中心迭代算法和模型的臨界點(diǎn),章磊認(rèn)為數(shù)據(jù)行業(yè)也在迎來一場變革,將出現(xiàn)以下三方面發(fā)展態(tài)勢(shì)。
一是純?nèi)肆π蛿?shù)據(jù)標(biāo)注公司發(fā)展空間縮小,在自動(dòng)化成本達(dá)到了跟人力持平、甚至更便宜的狀態(tài)后,整體會(huì)面臨比較大的紅海競爭。反向要求企業(yè)具備研發(fā)自動(dòng)化標(biāo)注算法的能力和迭代能力。
二是市場亟需數(shù)據(jù)價(jià)值,其不僅在于數(shù)據(jù)增值和人類反饋,更在于發(fā)現(xiàn)指標(biāo)跟蹤、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索、算法反饋迭代的工具鏈。
三是擁有技術(shù)迭代、產(chǎn)品迭代能力的公司,要針對(duì)客戶的痛點(diǎn)去解決問題,才能真正立足。同時(shí),玩家們僅靠數(shù)據(jù)服務(wù)做好還不夠,更需要做好工具鏈和自動(dòng)化算法,星塵數(shù)據(jù)目前正處于這一階段。
“我們看到數(shù)據(jù)服務(wù)可能很快會(huì)出現(xiàn)一些革命性的產(chǎn)品,或者說已經(jīng)有一些實(shí)驗(yàn)性的結(jié)果在頭部實(shí)驗(yàn)室誕生,可以極大降低數(shù)據(jù)的成本,快速提高模型跨領(lǐng)域的適配性和魯棒性,這種技術(shù)也是數(shù)據(jù)行業(yè)下一階段的趨勢(shì)。”
接下來,章磊表示,公司將從DataOps全流程進(jìn)行技術(shù)賦能,通過一站式的AI數(shù)據(jù)管理平臺(tái)和數(shù)據(jù)策略服務(wù),以及具有自動(dòng)化能力的工具鏈給客戶帶來整體的價(jià)值,提升算法最終效果的上限。
(Jerry為化名)