您当前的位置: 首页 > 法律

中国AI产业链底端众生相有多少智能就有多

2019-03-02 16:25:05

从人工智能发展高地北京到河南郑州,只需要两个小时的高铁,那里有中国的代工厂富士康。再从郑州火车站出发,半小时车程,到达一栋不起眼的写字楼,打开一扇没有任何标志的大门,就是目前河南的人工智能数据标注工厂翊澳数据的总部。

聚集在北京的人工智能公司里,随处可见人脸识别机器以及实时的大数据热点图。但这家数据工厂里,并没有任何智能的样子,也没有普通工厂里的流水线,更像是一间吧 装修简单,几十台电脑依次排开。

正值午休时间,一半的电脑前面空空如也,还有数十名员工坐在电脑前,或是吃着打包来的午饭,或是掏出打游戏,也有部分标注员还在处理一张张模糊或清晰的照片。

数据标注行业流行着一句话, 有多少智能,就有多少人工。 目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,这是AI金字塔的基础,处于层。

此前,一些数据标注工厂被冠以 血汗工厂 的名号,为了应对庞大的数据标注需求,标注员们必须加班加点盯着电脑屏幕,夜以继日地重复枯燥的工作,但眼前的这个工厂里,似乎有些轻闲。

听说AI很火,我们也想参与进来。 翊澳数据总经理靳建伟对《财经》说。

靳建伟经历丰富,善于追逐潮流。火的时候他做过推广,拼多多起来后在上面卖过袜子,还在关注短视频营销行业, 你知道抖音推广吧?就是一个后台可以操纵一百个账号那种,据说很赚钱。

大多数AI初创公司还处于依靠融资发展的阶段,但数据标注产业更像传统行业,拿一单数据结一单钱,江湖中流传的传说是,这个领域已经创造了不少 一夜暴富 的故事。

被这样的故事吸引,不少像靳建伟一样的人加入了这场淘金游戏,但现实给了他们当头一棒。

2018年,河南省的数据标注公司死掉了一大半,剩下的几乎都在艰难求生,接受《财经》采访时,靳建伟已经两个多月没有接到新的订单,工厂员工从600人,锐减至200人,他觉得自己恐怕需要开始找下一个风口了。

撞进了AI圈

靳建伟今年28岁,2017年以前,他甚至没听说过 数据标注 这个词。

他并不懂AI算法和技术,也不太清楚AI到底能解决哪些问题,2017年,他偶然听说做数据标注能赚钱,当时他正从事证券销售业务,由于没有资质,公司被关停,他找到一个卖保健品的朋友,共同成立了这家数据标注公司。

2017年,中国AI创业开始达到顶点。对数据标注的需求也迅速爆棚。河南是人口大省,数百家数据标注公司在此诞生。

靳建伟算了一笔账,一个成熟的标注员,月产值能做到7000元,除去3000元的工资和质检、场地设备等费用,公司能赚1500元。

那我不断招人就行,如果招100个人,一个月就赚15万元。 靳建伟说道, 怎么看都觉得这个生意靠谱。

有电脑、有场地,再迅速招一批没有学历、工作经验要求的数据标注员,就可以迅速上手。

深度学习的关键在于大量的数据训练,数据训练之前,必须对这些数据进行明确的标注。例如,机器需要识别斑马线,就必须提供大量标注了斑马线的数据来进行学习,数据量足够大时,机器就可以识别出任何角度的斑马线。

这意味着,在某种程度上,AI算法的优化,取决于数据标注的质量,而把控这些质量的,是完全不懂AI技术的一群人。

一名没有任何经验的标注员,通过半天的培训即可开工,一两个月之后可变成熟练工,一天就可以完成1500张-2000张图片的标注。

需要标注的图片数据从客户提供的数据处理平台上打包下载,根据不同的需求进行标注,常见的包括物体识别和人脸识别,物体识别主要是 画框 ,人脸识别则是 打点 。

靳建伟还没考虑过融资这件事,他听说北京的AI公司都在以亿为单位进行融资,但他的思维和之前的数次创业没有区别,找客户,做业务,能赚钱,才是应该做的事情。

单打独斗在当下的AI圈很难混得开。由于完全没有相关行业经验,也没有资本加持,一开始靳建伟只能接二手、甚至三手订单,也即外包服务。 一些有渠道的公司接了订单,自己不做,或者自己做不过来,就分发给我们做,他们再从中间收取差价。

与很多行业一样,渠道是核心竞争力,中间商们不需要耗费太多的人力物力,就能赚取可观的利润,底层的工厂们,加班加点,只能勉强维持经营。

这样下去可不行。在熟悉了行业之后,靳建伟开始主动出击,拓展渠道,试图绕过中间商。从知名的头部AI公司开始,到所有他能找到联系方式的中小AI企业,他问了个遍。得到的回应要么是 不需要 ,要么是 我们已经有了自己的数据标注团队 ,更多的是石沉大海,没有回音。

人家上来就问你,以前做过哪些项目,我说不上来。 他很无奈。

类似商汤科技、科大讯飞这样的头部AI公司,都会自建数据标注团队,既方便管理,也能更好地理解需求。

但确实也有大量AI公司,由于团队人数、资金成本有限,有外包数据标注的需求,但大部分都会通过熟悉的渠道寻找标注团队,或者和大平台合作,例如百度众测平台。

百度众测是百度旗下的一个类似众包模式的数据平台,2014年在百度世界大会上正式推出,平台上会分发各类任务,在行业内称为 放题 ,包括数据采集、图片标注、文本标注等。

百度在中国人工智能领域起步早,渠道辐射广,众测平台上每天都有大量的数据标注需求,并且开放注册,这让靳建伟看到了机会。

当然了,当时他还没有意识到,更大的困难在等待着他。

这一过程堪比高考,工厂的员工大多学历不高,以专科生为主,但为了赚钱,他们铆足了劲。 那一段时间我们天天刷题库,练习,这个事情就是熟能生巧,我们单独拉了一支20人的团队,不干别的,就应付这个考试,来来回回折腾了好几个月,终于考上了。

自去年加入百度众测平台开始,翊澳数据就一直保持在前十名的位置,这也让他们真的赚到了钱。 从去年10月到今年上半年,百度一共给我们结了120万元。 靳建伟说道。

但他仍有怨言,在他和一些同行看来,百度也不太地道。前期耗费几个月时间的考试,似乎是在做无偿劳动, 那些考试的题,其实就是真实的客户需求,

中国AI产业链底端众生相有多少智能就有多

我们做完了,百度就拿去卖了 。

只要能赚钱,前期免费付出一些也未尝不可。相比其他订单来源,百度众测给的单价更高,平台上的订单价格是按照每个标注员每天8小时工作量测算,正常情况下8小时能标注1200个数据框,价格是240元人民币。

为了能够扩大收入,靳建伟要求员工一天能标注2000个数据框, 做得越多,赚得越多 。

依靠百度众测,靳建伟尝到了甜头。但好景不长,百度众测平台上的单越来越少,甚至出现长时间的 断粮 情况。

目前整个AI行业都处于起步阶段,数据与算法交替磨合前进,需求在不断变化,对于数据标注的需求也是周期性的,并非源源不断。例如,2017年,数据标注行业就很少接到车牌标注的订单,因为标注量已经足够多,算法需要时间去慢慢消化,并落实应用,然后再发现其他数据需求。

突然无题可做,这对于当时已经有数百人规模的翊澳数据来说,压力巨大,每天员工的工资就是一笔不小的开销。

为了维持运转,他只能再去找新客户,他们曾经接过自动驾驶明星公司Momenta的二手订单,他降低价格,说服了Momenta直接给订单,绕开了中间商。

自动驾驶企业对数据量的要求非常大,路况信息庞杂,采集到路况图片后,需要人工对路牌、障碍物、交通信号标志等多种信息进行标注。

Momenta成立两年时间,已经完成5轮融资,融资金额超过1亿美元。在同行看来,接到这样的明星客户,意味着能在业内树立口碑,且融资能力强,不缺钱。

星尘数据位于北京三里屯,2018年1月完成1000万元人民币的Pre-A轮融资,公司运营副总裁商宇通过百度众测平台发现了翊澳。 他们一直保持在平台的前几名,说明标注质量有保障。 商宇接受《财经》采访时说道。

与翊澳数据一样,星尘数据的办公室也找不到任何标志,创始团队大多有美国工作背景,他们像硅谷的初创公司一样,十几名员工挤在一起,整个公司看起来还没有靳建伟个人办公室大。

但他们比靳建伟更了解这个行业。

我们想做的其实是一个数据标注平台, 商宇说, 能够对接需求方和标注团队,以及有时间和余力做标注的个人,就像是数据标注里的滴滴。

平台是长期目标,短期内,星尘做的是中介的工作,他们去竞标订单,然后找到工厂承接。

但大家都处于摸着石头过河的程度,星尘断续给了翊澳一些小订单,怎么定价,是双方都不太清楚的问题。

从郑州去往辉县的路上,靳建伟收到星尘发来的消息,称他们准备去竞标一项数据采集的单子,让靳建伟报个价,他们拿着这个价格去竞标。

我怎么知道应该报什么价格? 靳建伟有些茫然,他没做过数据采集的工作,但是他缺订单,两小时的车程中,他一直在纠结报价的问题。 50?30?要不然报高一点让他们砍价?但是万一觉得太贵把我们排除了怎么办?

相比他们的迷茫与矛盾,博雅立方走的是另外一条路线 提供定制化的数据标注服务。

数据服务提供商博雅立方是中昌数据()旗下品牌,主要业务就是数据标注,团队目前超过1000人。

博雅立方数据服务事业部总经理王馨比靳建伟更早看到了机会,2012年,她开始做搜索引擎和输入法的语量库和知识库。 你在上搜索资料,和语音识别、图像识别一样,都是机器交互,也就需要不断地给机器灌输信息来实现。

AI爆发后,王馨也转型到数据标注领域,除了简单的图像数据标注,他们还做难度更高的语音数据标注,以及专业性更强的细分行业数据标注,如医疗、法律等。

不过,AI公司通常不会只找一家数据标注公司提供服务,将标注需求拆分给多个团队能够更好地降低成本。这一过程基本通过招投标的方式来进行,客户主要考察过往经验,完成订单所需时间,以及单价。

在全行业都缺乏经验时,完成订单的效率和单价就成为主要考核因素,灵活的小团队们在这两点上,优势显得更大。 想要找人来外包订单,快速完成,并不困难。 靳建伟表示, 你在上发个招聘信息,一天之内会有100家接不到活的团队找上门。

价格方面,小团队也更 狠心 ,王馨就多次在招投标环节遇到开出不合理低价的小团队, 他们更想要的是客户案例积累。

环环相扣的数据标注行业像是一片挤满了鲤鱼的池塘,偶尔一把鱼食撒下来,会被不择手段地立刻分食干净,然后饿着肚子等待下一场竞争。

推荐阅读
图文聚焦