机器之心原创
作者:吴昕
屏前幕后,孜孜不倦的人们,用「数据标注」教会 AI 认识现实世界。而他们所处的数据采标行业本身,也正在从早期粗糙的「数据作坊」发展成为「数据工厂」的专业化运作。
如今,这些流程已经发展出一条完整的产业链——采集、整理、清洗、标注,流水线似的过程恰恰是 AI 算法模型精确运行的根基所在。随着 AI 技术在应用场景下沉,AI 企业对算法落地性要求慢慢的升高。此时,垂直精细和定制化数据显得特别的重要。
2018 年,中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%。Testin云测旗下的 AI 数据服务品牌「云测数据」的出现,就是一个典型案例。
通过定制化场景搭建,帮助 AI 企业或部门构建数据核心壁垒,提供人工智能场景化落地最需要的数据,这既是客户获取差异化优势的保证,同时也是云测数据的核心竞争力之一。
周一,忙碌的工作照常被拧上发条,北京 2019 年的第一场大雪如期而至,这一天让张俪兴奋不已的不单单是大雪,还有她手中刚接下的项目订单。
客户是一家圈内名气不小的无人驾驶公司,他们提供给张俪(化名)一套数万张的道路数据集,张俪将任务分配给服务智能驾驶方向的小组员工。
十天左右,该套数据里的自动驾驶行车道检测图像即可标注完成,准确率超过客户要求。
两年前,就职于一家电商公司的张俪不会想到,两年后的自己会和「高精尖」的人工智能技术打交道。
2017 年末,张俪所在的电商公司因为 O2O 市场降温而倒闭。失业后不久,张俪在一位算法工程师朋友的推荐下,来到 Testin云测,开启了一段不同寻常的工作,人工智能的训练员——数据标注。
一开始,她只需要标注出图像中的人物性别,工作内容简单而机械。
接着,她开始给人物标注年龄段,开始框定 2D 对象,然后标注 3D 边界框,再从白昼图像到深夜和多雾场景……场景慢慢的变多元、标注需求越来越详尽,最后这些经过人类点拨过的数据被一股脑地投入神经网络的研发之中。
到现在,张俪已经成长为一名项目经理助理,她的日常工作从标注转向项目承接,那些 AI 圈里耳熟能详的明星公司都是她的重要客户。
与数据标注师相类似,蚂蚁森林护林员、垃圾分类师、毒鸡汤文案师……这些看似匪夷所思的新职业,已经与我们生活丝丝相扣。
一份今年的新兴职业报告多个方面数据显示,「小镇青年」是 40 余种新职业的主力军,从业者约一半生活在三四五线市县,其中三分之二以上是兼职。
图一:新职业主力军——小镇青年。
「非专业、兼职、劳动力密集型」——是报告为数据标注师圈定的标签,虽然不免有些以偏概全,但谈起「标注员」,确实很难将其与「专业化」、「技艺型」、「创造力」等字眼挂钩。
但如今,数据服务的产业链条正在被重塑。AI 企业对于数据的应用需求逐渐分化,精细度要求也慢慢变得高,以往一味的粗放式加工模式已经丧失市场竞争力,大浪淘沙,从奔腾到平静,泥沙聚沉,清流上涌。
Testin云测旗下的 AI 数据服务品牌「云测数据」的出现,就是重塑整个产业和标注员印象的一个典型案例。
一、小数据的大天地
根据佐治亚理工学院的一项研究——通过对 8 个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低 5%。
结论一经报道,诸如「AI 行业也存在种族歧视」的言论便充斥在各大媒体上。
然而,从技术角度来看,计算机视觉是通过 RGB 或 RGBD 识别人(物体)的信息,但是黑色是最难被识别的(黑色或深色的 RGB 整体数值偏小),尤其在实际情况中,系统也欠缺黑色及深色的数据,由此导致算法模型不够精确,最终技术在实际落地应用时出现差错。
在数据服务行业,这种细分且稀缺的数据统一被称为「小数据」。
比如道路安防摄像头,摄像头中囊括行人、机动车、自行车数据,却唯独缺少行人跌倒数据;在自动驾驶领域,监测系统需要采集驾驶员各种状态数据,但缺少疲劳状态的数据。
贾宇航(云测数据总经理)解释道,云测数据针对这些需求,为客户定制场景、采集数据,在自动驾驶场景中,云测数据可以让驾驶员先开 6 个小时车,最终采集到真实的疲劳数据。
据了解,云测数据目前的整个数据服务人员已达千人规模,通过标审分离的流程化作业模式和数据安全机制,更好的保证数据的高质量产出和数据隐私性,从而更好地为人工智能落地提供定制化『数据养料』。
数据服务行业早期,企业主要通过数据爬虫收集数据,数据服务门槛很低,各个企业野蛮生长、鱼龙混杂;第二阶段开源/付费数据集开始出现,主要分为语音类、图像类、NLP 类数据集等。
随着 AI 的发展,仅仅靠数据收集已经不能满足客户的算法训练需求,第三阶段的 AI 数据众包平台应运而生,在众包平台上,可进行更丰富多样的数据采集与标注,进一步提升 AI 的能力。
当时百度和亚马逊都曾发展过此项业务,2011 年百度数据众包就以部门的形式成立,不仅为百度内部需求方如百度 NLP、百度地图等提供 AI 数据采集和标注服务,同样将数据众包业务进行开放,根据客户需求制定数据采集方案。
如今 AI 与各个产业结合得愈加紧密,为保证算法优势,客户需要采用定制化服务,由客提出具体需求,数据服务商对数据进行采集并标注,定制化数据的需求日益增长标志着数据服务 4.0 时代已经来临。
根据艾瑞《中国人工智能基础数据服务行业白皮书》显示,2018 年,数据资源定制服务已在基础数据服务市场占据 86.2% 的份额。
二、 场景实验室里的故事
浙江横店,三脚架支起的镜头面前,往后延伸出长长的队伍,这些群演并非在演戏试镜,而是采集情绪数据。
「咔」地一声,镜头面前,摄影灯下,群演们或大笑、或痛苦、或愤怒,表情的自然程度决定他们是否通过第一轮试镜,进入第二轮,考核的标准更为严苛。
群演面前立着一面镜子,镜子旁边便是审核人,「想想你上一次失恋是什么时候,心情怎样」,「你到现在最有成就感事情是什么」,诸如此类的问答也是采集基地的苦心安排——引导情绪、烘托气氛,保证情绪采集过程的真实、自然。
图二:采集现场。
数据采集完成后,云测数据标注员工需要根据图片表现的情绪进行精准标注,未经精准标注的数据,人工智能无法理解其中意义。
正如贾宇航所言,云测数据的采标业务正是整个 AI 产业所迫切需要的,横店群演的情绪采集只是场景化定制数据的一个缩影。根据企业数据需求,还原 AI 应用真实场景,这不仅需要深入理解需求,还需要快速构建场景,而且对人力资源的调配能力也提出挑战。
云测数据的服务采取项目制,每位专业项目经理经过了 30-60 天的职前培训,帮助客户拆分原始需求、优化项目执行方案,项目经理集中培训后,再由项目经理针对具体的项目对标注、质检、审核员工进行培训。
纷繁复杂的需求背后,有的是刚需,有的则是「无用功」,定制过程中,云测数据需要根据以往项目经验及实地调查来明确需求,此后再细化、优化需求,帮助客户完成复杂场景的落地,同时避免客户花费更多成本。
在采集过程中云测数据会运用专业的软/硬件设备,比如用测光强度的设备来满足客户的环境光照要求,如果客户需要纯净音频数据,那云测数据会搭建一个录音棚,满足诸如混响或者高底噪的定制化需求,最后再用麦克风进行录制。
在云测数据交付部门负责人朱文辉看来,整个行业仍处在早期,客户需求变更经常发生;其次,行业内部面临很多的不确定性,采标现场的筹备环节,人员的管理问题,需要一系列的协同化处理。
如果说数据采集只是备齐食材,那么标注流程称得上后期「烹饪」环节,帮场景数据「训练」算法模型完成最后一道工序。
在标注环节,云测数据拥有线上自研的数据标注平台——平台上聚合着如图像、文本、音频等数据类型的先进标注工具,尤其是在 3D 点云的标注系统中优化了渲染引擎,保证整个过程的流畅和快捷,当属业内领先。
据朱文辉介绍,「研发团队里有产品经理、前后端工程师」等,他们会针对不同领域循环式地改进标注工具,并根据客户需求,实时反馈、实时更新、实时研发。「我们的迭代速度一直很快」朱文辉回忆道:「迭代之后有些领域的效率提高了三倍不止。」
图三:云测数据自研标注系统。
除了自研线上标注平台,云测数据分别在华东、华南、华北自建了标注基地,还有几个基地正在部署中。在确保标注数据准确率的同时,有效保证标注作业的信息流转和数据安全。
由于标注是人工完成,本身主观性因素较大,加之行业缺乏统一的标注数据标准,这使得标注工作充满不确定性。
「标注的过程是一个颠覆常识的过程」,朱文辉笑着说道,「不同人对待同一件事情标准是不一样的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每个人的标准都不一样,主观性很强,在判断的过程中,我们会与客户一起沟通交流需求,厘清标准;其次,有的标注事件异常复杂,需要对标签进行优化,例如人脸识别,描述一张人脸需要 80 多个标签,此时云测数据会把该项目拆成 5 大类,分工完成,最终拼凑成完整的结果输出」。
三、数据安全「密钥」
2019 年 10 月 28 日,杭州「人脸识别「第一案将」究竟谁有权收集我们的人脸信息「这一话题推向舆论高地,事隔一个月,转转、咸鱼、淘宝等平台」5000 多张人脸照标价 10 元「的新闻在行业里又掀一轮风波。
数据的恶意倒买倒卖已足够骇人听闻,而另一方面,平台未经用户授权,将用户数据记录、用作自身系统优化更是让人防不胜防。
今年 1 月,苹果在 CES 会展中心场外拉起一块以隐私为主题的巨幅户外广告牌——「what happens on your iPhone,stays on your iPhone」。广告采用黑底白字的极简风格,但现实却往往是灰色的——亚马逊、苹果、谷歌等公司都存在监听用户数据的行为。
正如科技巨头们为自身辩解的那样,「监听数据是为了优化算法模型,提高用户体验」,但他们却从未澄清重要事实——使用人工听取录音,标注用户关键信息,致使大量用户个人隐私泄露。
如今,面对舆论压力,科技巨头们开始调整战略,亚马逊允许 Alexa 用户选择对录音不进行人工审核;苹果开始允许用户删除 Siri 的历史记录,把共享录音设为可选项;谷歌暂停人工转录 Assistant 音频。
平台应用方窃取数据进行相关标注,已经让平台用户人人自危,而在专业第三方数据采标公司里,数据安全问题更是凸显。
目前数据服务行业中,在保障数据安全层面,主要包括私有化离线部署,驻场标注,数据存储在客户本地;第二则是公有部署,数据接入在公有云服务器,通过数据接口加密、定期巡查、反爬虫机制保证数据安全。
作为AI数据服务的头部企业的云测数据,一直将数据隐私、数据安全放在业务开展的首要地位。在贾宇航看来,数据安全领域,无论是 AI 公司还是数据服务公司,眼光都要长远一些,采用未经授权的数据当然可以控制成本,但是当行业进入越来越规范的阶段,前期的野蛮发展终究会造成不良后果。
在保证数据安全方面,云测数据有三层面投入:
首先,不滥用数据,数据交付后清毁数据不留底,绝不二次使用;
第二,不侵犯隐私,与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规;
第三,建立相关的数据保障机制,如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等。
Testin云测 CMO 张鹏飞也补充道,「从整体看来,AI 数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。
四、纵横发展,数据服务的下一幕
目前,整个市场需求正向「一纵一横「方向发展,」一横「即指越来越多的行业开始运用 AI,不管是金融、保险、物流、零售还是智能制造等行业。云测数据的客户主要分为两大类,一种是运用 AI 颠覆行业,一种是在传统行业引入 AI,后者正在变得越来越多。
「一纵「是指 AI 与已有行业结合得越来越深,AI 正从大量数据驱动变成了与产业相结合,需要与产业专家进行合作,例如在人脸识别场景,早期只用识别人脸,之后发展到情绪检测,后期愈加深入细分——如微表情识别。
贾宇航用人脸关键点标注来举例。几年前的人脸关键点标注任务要简单很多,那时标注员只需在人脸上标出几个点就行。而现在,人脸关键点标注可涉及多达 206 个点:每个眉毛上有 8+个点,嘴唇上有 20+个点,下颌轮廓上有 17+个点。在更多领域拥抱人工智能的趋势下,数据服务从业者也需具备相应的领域知识。
图四:人脸关键点标注图像。
「一纵「趋势让 AI 数据服务逐渐从一个行业变成产业,成本已不是企业唯一考量因素,管理效率,数据安全,数据质量同样重要。
早期行业的数据精度要求较低,工作机械化,如今正处在人工智能产业化落地前夕,算法对数据准确度要求慢慢的升高,行业的创造性被激发出来,需要越来越专业的公司从事,留给数据标注兼职业态的生存空间将越来越小,而行业也逐渐从劳动密集型转变成技艺密集型。
图五:AI 基础数据服务行业发展历程与展望 (图源艾瑞)。
数据标注服务从业者是人工智能背后的「英雄」,从长期来看,AI 越来越智能,但对于偏感性的判断仍比较难,如 AI 对文字的演化和情绪的识别仍是弱势,未来 AI 要处理行业内更为复杂的问题,但人的感知力和判断力不能被替代。
虽然人力不可替代,但对数据标注员的专业要求将慢慢的升高却是无疑。
随着「一纵」趋势的深入,很多数据标注工作要交由专业技术人员去做。标注员将从兼职向全职再向具备专业领域知识的全职员工进化,从业门槛的提高其实是行业变迁的缩影,数据标注服务正从以往的「数据作坊」向流水线作业再向具备创造力与专业性的行业转变。
依靠以往海量粗放的数据喂养已远远不能满足如今 AI 行业的发展,而愈来愈精细的数据正是导致行业变迁的最大变量。
因此,AI 企业需要数据服务商强大的采标能力,保证数据安全及高质量,而与此对应的各类场景搭建、条件变换、特殊人群都是「稀缺资源」,所谓「天下大事必作于细」,在 AI 行业下半场竞争中,云测数据作为定制化数据服务提供商,通过提供「稀缺资源」、「以小博大」,在帮助算法公司获得优势的同时,赢得自身的差异化竞争力。
(PS:文中张俪为化名)