科技行者 人们广泛以为,AI科学家天天的工作是构建高大上的模子,但着实绝大多数时间都用在了数据上,他们也想用好的数据资助建模,但结果却是像围城一样——这是许多AI科学家共同的困难。 作者|周雅 配图|扈佃杰 在高校扎堆的北京北三环黄金地段,海淀文教财产园着实不那么打眼儿,但却善于收揽“金种子”入驻,创业公司Magic Data就是此中的一位了。 仅看名字,不丢脸出Magic Data的业务:数据!这家公司创建至今不到7年,从不到10人扩张到100余人规模,客户遍布环球200家头部大厂,5年内业务收入突破了一个小目标(亿元),成为AI语音数据服务圈的第一梯队……在这此中,有一个人功不可没。 她就是Magic Data首创人兼CEO张晴晴。 张晴晴身上有许多社会化的标签:女博士、创业先锋。抛开这些,在与她1个半小时的交谈中,我更多能显着感受到她对于古迹的豪情与执着,因此你什么题目都能问,她什么也都能接的住。厥后我才发现,这原来就是她的一样寻常之一,在个人视频号里经常分享各种观点:关于数据、关于AI、关于ChatGPT、创业&科研、ToB服务、管理、IT女性,等等,科普性极强。 以是你很容易在AI的圈子里,看到张晴晴的分享。就像你很难在AI的赛道里,不讨论数据一样——由于说到底,张晴晴的发展,也伴随着中国人工智能财产的发展。 时间调回到约20年前,人工智能非常不火,不火到学这个专业的大门生大概一毕业就面对赋闲,乃至大学里没有真正教AI的老师,还得从通讯专业里“借”老师,张晴晴打趣道:“人工智能的前身大概是通讯”。可却在其时,张晴晴对语音辨认萌生了爱好。 大三那年,她偶然选修了一门课叫做“语音数字信号处理处罚”,学习人的发音机理,再把发音过程通过信号建模出来,做成语音合成——“我以为这特别风趣。”她说。 厥后在保研过程中,张晴晴同心专心想继承学语音信号处理处罚,可巧看到中科院在招生,就绝不夷由报了名。终极结果是,她在北邮通讯学院600多个报名的门生中脱颖而出,以第7名的结果被保送到中科院声学研究所,师从中科院语言声学与内容明确重点实验室教授颜永红。 再之后,张晴晴成为实验室中最年轻的副高,而且得到了2014年度中科院精良科技结果奖,又在法国国家实验室担当语音信号处理处罚博士后。总之,她就是那种“别人家的孩子”。 自此在这二十年间,这位女博士恒久专注在同一件事:怎样更好地构建模子,让呆板更好地明确人话。直到,她发现了一个致命性题目。 读博期间,张晴晴的论文研究的是“中国人说英语”,为此她要拿到200个真人的语音,只为让呆板明确中国人说英语的特点。结果,这期间她大量的精神都花在了找人说英语上,乃至走在街上,也会下意识向路人问一句:“您能帮我录句话吗?”而终极,呆板仅耗费了1天就给出了第一个实验结果,可她却足足花了300天用来网络人声。 张晴晴不禁感慨,人们广泛以为,AI科学家天天的工作是构建高大上的模子,但着实绝大多数时间都用在了数据上,他们也想用好的数据资助建模,但结果却是像围城一样——这是许多AI科学家共同的困难。 那么,有没有大概创造一个巨大的数据集,让全部的AI科学家和公司都可以或许用来练习模子呢?这一疑问浮现在张晴晴的脑中。 直到2016年,人工智能迎来了再次发作,张晴晴观察到一些互联网巨头对于数据的需求越来越繁茂,于是从中科院去职,正式在北京开办Magic Data。 假如要用一句话概述公司业务。张晴晴先容,Magic Data的定位是一家多模态的人工智能数据办理方案公司,做的是多模态数据,提供的是数据的办理方案。七年来,Magic Data积聚了高出60种语言、高出15万小时的对话式AI练习数据集,覆盖智慧金融、智慧出行、智能外交、智能家居和智能终端等五大行业。 追念一起走来,让张晴晴印象深刻的故事有许多,但最让她触动的一件事,是来自于团队。 2017年,公司创建还不敷一年,为了节省本钱,张晴晴只能把公司租在北京海淀区的一座商住两用楼里。在那段时间,北京的几场大火波及了消防隐患小区,都必要被清查整治。 一个周日下战书,消防员筛查到了这座大楼,告知大楼的消防不合规,必须立即撤走。这意味着,张晴晴必要在几个小时内转移几十位员工的办公物品,怎么搬?搬去哪?面对突如其来的状态,她一时不知所措:“我其时很尴尬,也不知道怎么跟员工开口,以为自己好像挺不靠谱的。” 但她很快晃过神来:得立即告诉各人,集结团队的气力。而让满心愧疚的张晴晴欣慰的是,员工没有一位抱怨,一晚上搞定了搬迁。第二天一早,全部人定时出现在新办公室里,开始了新一天的办公。 而在谁人兵荒马乱的时间,公司还正在忙着A轮融资,也正由于整个团队的凝聚力,Magic Data在那一周里乐成拿到了A轮。 自那以后,张晴晴悟出一个原理:“创业是在平静年代里对人最有挑衅的一种生存方式,在创业过程中感受到的喜怒哀乐是几辈子的喜怒哀乐,但反过来对于人的自我迭代也是极快的。创业是个非常风趣的过程。” 01 ChatGPT好比数据工厂 但是做数据难于做芯片 科技行者:ChatGPT与人交互起来对答如流,感觉它的大脑在飞速运转,背后肯定是有海量数据在支持吧? 张晴晴:没错,数据对ChatGPT的作用着实是太大了。ChatGPT早先的数据量许多,险些都是来自于网络用户的原生数据,但这些数据不能直接用,要颠末分类洗濯。 反过来说,你的处理处罚速率、精度、服从都会直接影响到ChatGPT自己的质量,以是本质上它是一个工业级的生产过程,是个极具挑衅的过程。 挑衅有两点。起首,你必要把许多人构造起来,在一个生产体系里完成事变。其次,假如我们已经构建了一个根本的ChatGPT,剩下的就要开始做一个围绕ChatGPT而天生的垂直范畴模子,这里产生一个题目,这种垂直数据怎么获取? 垂类数据的获取通常都非常难,特别是医疗、金融等数据,网上没有现成的。以是这就衍生了别的一个热门技能,叫AIGC(人工智能主动天生内容),它为什么同步火了,就是由于现实生存中的数据获取太困难了,就想着用AI去天生雷同的数据去用于练习。 AIGC着实也叫做合成数据,合成数据中央有一个非常告急的分支,叫做simulation data(模拟数据),对于企业来讲,模拟数据可以很好地实现数据场景拟合、快速交付的需求,同时数据的合规性也能得到包管。 6年前, Magic Data开始做模拟数据,实话讲这在整个人工智能的数据范畴,前瞻性是走得比力靠前的。 我们做的模拟数据,叫做off the shelf data(自有数据),通过模拟出各种场景,好比通话场景、车载场景、家居场景等,对模拟场景中的数据举行收罗和标注,打包身分行业、分范畴的垂类数据。这些数据可以快速交付企业和科研院所,助力AI研发。 科技行者:那么做模拟数据的难点是什么? 张晴晴:做数据要求很专业,我曾经跟同事讲,做数据的专业度有点像是做芯片,都是一个long term(长周期)的事变。但现在我越来越以为,做数据的难度乃至高于汗青上生产芯片的过程,由于芯片是可以被结构化的。 但是数据的差别化太大了,差别的行业、场景、乃至是差别的形态数据,内里的参数和差别度都是极大的,同时,数据要用于人工智能建模,呆板在建模的过程中怎样消化汲取这些数据,也是难点。 对于我们“数据人”来讲,肯定要先明确,才气生产出好的数据,以是固然看上去我是不停在做数据,但是我每做一个数据,都要换位思索,思索数据在利用过程中会发生什么,这里就有大量专业的“know how”在内里。 第一点就是专业度。数据越做到背面,意味着我们要行止置处罚数据的精度和复杂度就越高,必要的专业人士在里扎根的时间就越长。以是客观上,我也不以为任何一家数据公司可以把全部的数据都做了,每家公司可以生根在善于的某个方向,做深做透就很了不得了。 第二点就是规模化。数据不大概永世留在实验室里,未来都照旧要面对工业级生产的题目。就像做芯片,做3纳米的一颗芯片不难,难的是批量生产出一堆3纳米芯片,大概也就那么几家公司能搞出来。 数据也一样,必要体系和人一起耦合去不停迭代,呆板在这个过程中处理处罚哪些环节,假如呆板出现非常,人应该给予什么information,让呆板再去回馈。整套流程是一个不停打磨的过程,也是一个不停求最优解的过程,但是你又永恒在求最优解,以是做数据是一个long term(长周期),必要你be patient(有耐烦),必要你keep going(对峙不懈)。总之这对做数据的企业也是综合性考量,要连续投入研发,不停迭代,不停筑高壁垒,末了沉淀下来,才气越来越好。 02 真正明确数据的人,就一小撮人 他们很痛楚 科技行者:Magic Data发展一年后,就有了万万级的收入。许多创业公司技能虽好,难的是得到收入。你们是怎样破冰的? 张晴晴:虚头巴脑的我就不讲了,客观说,任何一家企业刚起步,要想运转起来,肯定靠的是信托度,它决定了客户是否信托你,乐意跟你互助。同时要有交付质量,这是后续互助的根本。 我们公司发展6年间,一些重要客户的复购险些没有断过,这反过来也证明我们是一家非常踏实的企业,从建立第一天起,我们的核心诉求就是,盼望从根本上改变数据的生产力。 只要是能在生产力上面有资助到数据的生产的,不管是从呆板的研发服从、营销、供应链任何环节,只要能优化的,就应该尽心努力去做,对于整个AI的赛道来讲,降本增效肯定能推动发展。 科技行者:咱们第一个客户是谁? 张晴晴:我有点不记得了,但应该是中国企业,固然我们的客户环球都有,但最初做人工智能的根本都是现在的大厂。 科技行者:大概在两年前,你们公司做了许多开源项目,另有一个开源社区,感觉也是在给数据的生产力蓄力。 张晴晴:真正明确数据代价的人,偶然候就像围城一样,在那一小撮人内里,他们也很痛楚,很想用好的数据资助到自己的建模,但是他们又很难辨别,到底什么是好数据。 我们做了许多好数据,凝聚了专家团队的know-how,我盼望告诉各人,至少在人机交互的数据范畴,Magic Data是专业的,我们把一些典范的数据开源,也是盼望跟其他企业创造更多代价。 科技行者:有什么细节可以证明,咱们的数据就是好数据吗? 张晴晴:“好”可以明确成相对概念。 好比在人机交互场景里,终极形态是完全天然的交换,就像人和人对话一样,好坏常放松、想到哪说到哪的状态。以是呆板的练习目标肯定是越迫近于人类越好,我们公司恒久不停在用“人类对话数据”去练习呆板。 但是哪怕在两年前,各人都还没故意识到这个题目,导致已往我们跟呆板交换时,会以为枯燥又生硬,由于传统的数据用的是书面用语,练习出来的呆板固然枯燥,直到现在,各人才意识到了题目地点。 科技行者:就好比学书籍英语许多年却无法跟外国人交换一样。说到对话式数据,又要提到ChatGPT了,Magic Data能为这类大模子做什么? 张晴晴:两个方面。一是根本的「大模子」,对数据的洗濯和分类是ChatGPT必要的,这部分我们有高效的数据生产工具,叫做Annotator智能化标注平台,它凝聚了我们已往十几年做数据和人工智能的履历,假如用这套体系行止置处罚数据,可以降本增效。 二是基于大模子做「垂类模子」。这个过程就肯定会涉及到模拟数据,我们会专门设定许多指标,在这些指标下面去收罗相应的数据,而且做后期打标签的动作,假如企业直接用我们的模拟数据,去办理某些应用场景,也可以降本增效。 科技行者:前面还提到了,传统练习的数据好坏常机器式的,而咱们用的都是人性化数据,那么咱们的数据获取方法是怎样的? 张晴晴:已往,互联网公司有许多用户,它会基于这些数据去利用,固然这存在隐私题目。 我们的方式是去中央化,反其道而行之,我们不是去拿用户的数据,而是有一个众包的工作平台,各人到我的平台来,贡献他个人的一些数据,然后再获取相应的报酬。好比请一个人来给我做一段演出,大概请他来念一段古诗小说,这种环境下,他产生的数据有代价,他也会拿到相应的报酬,这恰好是一种去中央化的状态。 科技行者:无论是ChatGPT也好,照旧AIGC也好,都是围绕AI来谈的,那么你怎么明确未来 AI与人类社会发展的关系? 张晴晴:要从阶段性来看。在未来几十年的周期里,人工智能会很大水平上资助人类的工作生存,好比当老人或小孩跌倒了,智能监控会预警,这些呆板肯定是有利于社会安全稳固发展的;而从更恒久的角度来看,当人工智能越变越好,智能体系越来越多,各人会思索人类会不会部分被取代?我以为不是没有大概,我们总说奇点,大概一旦突破奇点,厘革一触即发。 03 躺平or卷? 我更寻求“被必要的代价” 科技行者:创业维艰都说烂了,你天天思索最多的题目是什么? 张晴晴:思索的题目也跟差别时期有关。早期总在想,怎么把一件事变去落地做好。 创业到第三年,思量战略、定位、善于做的事。 到第四五年,也就是从客岁开始,除了以上这些东西,我更多的开始关注构造的题目,一个企业的乐成肯定是一个构造形态的乐成。 科技行者:“创业是在平静年代里对人最有挑衅的一种生存方式”,你这话说的很好,不外既然是平静年代,有人大概就不停想躺平,为什么你要这么卷? 张晴晴:躺平和卷,着实是个哲学话题,我时不时也会想一些哲学题目,好比每个人在社会上寻求的到底是什么? 我也跟公司的小搭档讲,各人为什么要去做这些事,说到底是为了两件事。眼巴前的是为了收益(钱),这个各人都会思量,但是假如一个人只思量钱和收益,除非这个人真的是立即要饿死,否则是不可信的,那就意味着你的精神天下已经整个崩塌了。 以是除了钱之外,每个人肯定会追寻一种“被必要的代价”,当一个人被必要,他会迸发出一种极大的发自心田的气力,这种气力会让这个人以为非常幸福,这也是所谓的“感情代价”。 上面说的两个寻求,在每个人那儿的占比有所差别,而于我而言,我更必要“社会代价”。 最理想的状态是,你对自己的评价和社会对你的评价是险些对等的,着实两者一旦发生谁高谁低,你都会以为,要么别人亏欠你,要么你好像占了别人自制,就是这种状态。 科技行者:对,说回到躺平和卷的两个维度,我们大概不消去界定到底是要“躺平”照旧要“卷”,大概卷累了就躺,躺累了再卷,各人着实不消只选择一种状态。 沿着这个话题,我们再来做一个猜测。假如3~5年后,公司还能到达一个什么样的高度,你会比力满意? 张晴晴:大概两三年前,你问我这个题目,我会风俗性答复一句:假如企业可以上市,我应该很满意。 但是现在看来,要到达满意的目标有两者。第一者是,客户们以为Magic Data这家公司可以或许给它们带去代价,这对于人工智能数据的生产力也会带去更好的推动。 第二者是,Magic Data公司里共事的小搭档们可以由于这家企业而生存得更面子,而且他们的社会代价感会更高。 假如这两件事变同时满意,我就以为这家企业让我很满意。 科技行者:这么看来,感觉你是一个很有奉献精神的人,由于你个人的结果感来自于给他人带去的代价感。 张晴晴:这么说是公道的,由于首创人着实是公司团体的化身,关键是自己内部的一个逻辑自洽和对于外界来讲是一个代价出现。 科技行者:那么做成一家创业公司,要具备哪些告急的品格? 张晴晴:最告急的就两点,学习力和复盘力,这是对于首创人和首创团队都特别告急的本领。然后第三点不是我们可以完全掌控的,就是“看天用饭”。 复盘本领对于许多人都是极大辩说的,起首你得先否定自己,然后再去调解成一个好状态,自己否定自己大概绝大多数人就做不到。但假如能做到的话,不管是创业者,照旧非创业者,他的上升速率都会非常快的。 科技行者:总结而言是,不停学习让人进步,不停复盘让人自省,其他的交给时运。 张晴晴:对。 科技行者:在人工智能范畴,有许多女性科学家和企业家,那么假如有女性学子也想投身于这个范畴,你有什么发起? 张晴晴:我以为无论是女性照旧男性,都存在一个突破自己的困难过程。 女性早期大概会不自大,好比自己以为是如许的,还会风俗性去问别人“是如许吗”。别的女性存在一些天然色彩,好比风俗淘汰辩说、或是要让附近人感觉舒服等,这里有好的方面,就看怎么去用它。在创业这件事上,偶然候反倒必要“独裁”,独裁这个词不好听,但也代表着对于自己所要干的事变更加笃定。你敢于去做决定,而且刚强不移朝着这个方向走下去。 男性要突破的,就是认可自己曾经错过而重新再来的过程。以是,创业对男性女性都不容易,不外新期间有个词叫做“女性经济”,对于女性创业或女性出现在商界,各人的包容度好像真的变高许多了。 - 本文由科技行者原创出品,未经允许,请勿转载 往期精选 《空陆互联李琨的创业冒险:飞机不会是信息孤岛,我想用5G毗连中国的天空》 《拒绝互联网玩法,启动之初就红利,凌锐蓝信首创人顾玮的创业法则》 科技行者 / 见证毗连与盘算的气力 / 微信号 itechwalker 新浪微博 科技行者 |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP