全世界都在谈论ChatGPT将带来颠覆性的技术革命,但人工智能训练师李杰却一点也激动不起来。
(资料图片)
为了完成单价4分钱的计件工作,李杰和几十个人坐在一间摆设如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。
他的职责是为训练人工智能模型准备“饲料”,将大量的文字、语音、图像打上标记——“眼珠”、“四川话”、“绿化带”。只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。
李杰做得最多的是道路图片标注,亦即给道路图片上的物体标注好名称、颜色等详细信息,业内俗称“拉框”。
效率高的时候,他一天可以拉2000-3000个框,按照一个框4分钱计算,他一个月能赚三千块左右。对于职校毕业、身在西北县城的青年来说,这份收入还过得去。
同样的场景也出现在非洲的肯尼亚。该国首都内罗毕有30多名工人,成为了ChatGPT的数据标注员,他们每天工作9个小时,阅读150-200段文字,并标注出其中包含性、暴力与仇恨言论的内容。由于每天阅读大量极具冲击力的文字,有人会因为一段描写而做上一周噩梦。
这些工人能获得每小时1.32美元的税后收入,如果完成既定的任务,时薪可以上升至1.44美元,并有大约70美元的奖金,相当于一个月挣2500元—3000元人民币,比当地一般蓝领工作强些。
在人工智能产品卷起巨浪的时候,从肯尼亚、乌干达再到印度、中国,水下还有一群不被看见的“人工智能训练师”,在简陋的工作环境下,以最简单的技能,与最前沿的技术产生了联系。
伺候人工智能
李杰对人工智能的理解,是手机上的智能语音助手,“就好像苹果的Siri”。
他在职校念电子商务,同学大多去了电商公司当客服,他时常听到同学对工作的抱怨。相较之下,数据标注的工作枯燥,却也纯粹,他只需要按部就班地完成任务、“可以在办公室吹空调,也没什么难度,就是有点费眼睛”。
在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。言外之意,这是一份几乎零门槛的职业。
年过50岁的郭梅,原本在山西当地的煤矿上班,“抬头是山,低头是煤”。离开煤矿之后,她长时间找不到工作,最后成为数据标注基地中的一名员工,每天要拉两千个以上的框。“我从来没有想过自己会和无人驾驶、人工智能有关系。”
除了“拉框”,李杰也会接到语音标注的项目,通常是甲方采集到的不同地域、不同人群的语音,李杰必须戴上耳麦,仔细地辨认出每一个声音的含义。
一天下来,他要听来自几百个陌生人在不同场景下的发言,可能是伴随着车流声、喇叭声的中年男人在马路上大声质问,可能是讲着广东普通话的阿姨对着麦克风发出指令,有时候,他甚至会听到脏话。
这些声音被李杰一一转录成准确的文字,有时还需要打上说话人的性别、情绪等更细分的标签,最后教会人工智能模型理解人类的语言,用于智能客服、智能音箱、地图导航等产品中。
人工智能的三大基石是数据、算力与算法,数量越多质量越高的数据,往往越能够训练出更“聪明”的模型。
人工智能的主流方向是深度学习。在过去,由人来告诉机器,猫身上都有哪些特征,机器根据这些特征判断一个物体是不是猫;深度学习则是通过“喂养”大量不同猫的图片,机器就能自行归纳出猫的特征。这就需要大量经人工标注的图片,俗话说,有多少智能,就得付出多少人工。
数据标注领域有过一个神话——ImageNet项目。这个项目数据库拥有超过1400万张已被标注的图片,其中识别出的物体种类超过20000种——包括120个不同品种的狗。
项目源于斯坦福大学的人工智能专家李飞飞。2009年,业内普遍研究方向都是模型与算法,她另寻蹊径,改进数据质量。如今,ImageNet已经是世界上最大的图像识别数据库,被用于成千上万个人工智能研究项目和实验。
而在ImageNet项目背后,是来自167个国家的5万名数据标注员,他们足足花了三年时间才完成了全部图片的标注。
李杰算是图片标注的老手了,通常发给他的数据包内通常会有数百张不等的道路拍摄照片,李杰需要按照项目方的要求,对道路上的车辆、行人、绿化带等物体标注。另外还有一种常见的标注任务,则是标注道路的车道线。
这种数据标注要求特别多,“框框不能超过也不能小于,更不能漏点,一出错误验收不合格就得重新拉”。这些数据的最大流向是用于自动驾驶的机器学习,要确保驾驶安全,通常需要提供数以百万计的标注数据对人工智能加以训练——背后则是无数在电脑前点击鼠标、敲击键盘的李杰们。
互联网版富士康
贵阳,大数据之城。
在距离贵阳市中心约50公里的惠水县百鸟河数字小镇,有一家拥有超过500名数据标注员的公司梦动科技——其中的一半人,是附近盛华职业学院的学生。
大三学生郑成安在梦动科技实习,公司里的全职员工只有十来个人,管理层也是学校里的老师,“上课就是上班,老师就是经理”。
他很热爱这份工作,数据标注给了他生活多一种选择。他在上高职之前甚至没碰过电脑,现在却可以凭借一份电脑前的兼职,一个月能拿到1500元以上的收入。
郑成安所在的惠水县,在贵阳88个县区中经济水平排在中游,2020年时的GDP为139.16亿元,农村常住居民人均可支配收入12924元——相当于每月1000元出头。
有时候为了多挣一些生活费,碰上紧急的项目,郑成安会主动加班。他清楚地知道,标注员的工作很难一直做下去,他暗自下定目标,要成为管理标注员的人。
像贵阳这样的城市,中国不止一个。
数据标注产业的诞生最早可以追溯到2005年。当时,著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。
在深度学习成为人工智能主流之后,日益增长的互联网大数据成为了人工智能的最好养分。
据数据公司IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%都是原始数据数据。这些在经过清洗和标注后,变成标准化格式数据,才能被人工智能所理解。
作为劳动密集型产业,数据标注企业更多地选在三四线城市落地,地方政府无论是为了扶贫或是搭上互联网的顺风车,都能与互联网公司们一拍即合。
2018年,位于太原的山西转型综合改革示范区就与百度达成合作,打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”,基地占地面积超1万平米,已经引进了至少35家数据标注公司,超过2000名数据标注员。
在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作,和田地区更是抛出了“数据标注产业之都”和10万人数据标注就业基地的目标。
在河南,数百家数据标注公司从无到有;在济南,山东第一个数据标注基地,已经容纳了1500名“人工智能训练师”;在新三板上市的数据堂,也在保定、合肥,分别建立了容纳数百名数据标注员同时工作的基地。
而数据标注员身上的标签是“互联网民工”、“赛博流水线”。而对于绝大多数身在其中的人而言,一个互联网版的富士康,已经是当下不可多得的选择。
“教会徒弟,饿死师傅”
当数据标注成为“风口”,淘金者也随之而来。
2017年,周华偶然在朋友口中得知,做数据标注能赚钱,刚刚创业失败的他,决定再赌一把。
他算过一笔账,一名数据标注员一个月的产值能到7000元,除掉3000元的工资和质检、场地设备等费用,还能赚1500元。“如果招100个人,一个月就赚15万元。”
他找来合作伙伴,采购电脑、确定场地,又迅速地招聘了一批没有学历、工作经验要求的数据标注员,紧锣密鼓地接单。
此时的数据标注产业,赶上人工智能创业潮。根据前瞻产业研究院统计,数据标注公司从2014年开始不断增加,并在2017年达到高峰,当年数据标注相关融资事件达到9起,到2021年4月,已经有有18家公司获得融资,投融资事件39起。
数据标注行业有三种不同的公司,一种是大型互联网公司内部的数据标注部门,处理公司内部的数据;一种是像数据堂这类有自己基地的数据标注公司,他们有独立承接订单的能力,甚至外包给第三方;数量最多的则是以工作室形态存在的小公司,他们通常只能在众包平台上接单,或者第三方中介公司转过来的层层分包的订单——在平台上,他们或被称为“公会”、“团队”。
周华的工作室便属于最后一种,当时主要依赖百度众测的平台订单,平台上会分发各类任务,在行业内称为“放题”,包括数据采集、图片标注、文本标注等。据百度众测的数据,平台上有2500万的注册用户。
但百度众测上的单并不是都能到周华的手里。有时候他必须主动承接一些二手乃至三手的订单,那些掌握渠道的公司则可以赚取差价。
同样和他一样撞上风口的,还有当时还是创业公司的星尘数据。
星尘数据的创始人章磊,在华尔街、硅谷工作10年,曾在投资平台CircleUp担任资深数据科学家。2017年回国时,他本想继续在投资领域创业,尝试打造一个投研机器人——通过对大量公司年报、招股书等金融文档的学习,辅助投资人决策。当时国内的数据标注往往往往只能机械化地完成客户需求,这种“新颖”的数据标注要求,业内难以实现。章磊却看到了机会。
他创办的星尘数据,号称为客户量身打造数据标注方案。这家位于北京三里屯的公司,早在2018年1月就完成1000万元人民币的Pre-A轮融资,最新在去年8月又完成了5000万人民币的A轮融资,如今更多是做“数据标注平台”的生意——他们会去竞标大公司给出的数据标注订单,再分包给类似一些小型的“数据工厂“,周华是他们的其中一个合作伙伴。
2005年成立的海天瑞声,在此次生成式人工智能风潮中更是“赚麻了”。这家在业内以语音数据标注著称的公司,21年在科创板成功上市,今年一月以来,股价从每股60元左右暴涨到了每股超过200元。
毕竟对于国内众多研发人工智能的大厂而言,基础的数据标注是刚需,却不可能永远自己来做。那么只要有订单,无论是周华这样的工作室,还是海天瑞声、星尘数据这样的大公司,都能赚个盆满钵满。并非所有入局者都能有周华的运气,周华就知道不少同行,因为订单缺乏、结算周期长,公司早早退场。
当然,随着GPT-4和文心一言的陆续出场,人工智能正“升级换代”,数据标注行业也伴随着新的变化。
人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分标注数据,亦即“半监督学习”,而不依赖于人工标注的自监督学习与数据标注,也在业界开始出现实践。
去年6月底,美国加州圣马特奥县的特斯拉办公室,多名特斯拉员工在一次会议中被告知,他们被裁员了。最终被裁员的200人中,大多数都是数据标注员。特斯拉目前正在开发的计算机Dojo,就采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。
腾讯、阿里、字节跳动等一众大厂,也都在研发自监督学习的算法,甚至有些数据标注公司也都已经有60%内容来自于机器的自动化标注。
李杰听过一个说法,数据标注员是“人工智能的老师”,是他和同事们日复一日的拉框,教会了人工智能理解人类世界。
但他从没想过,当人工智能时代真正到来的那一天,取代他们的,恰恰会是自己曾经的学生。
(为保护隐私,文中人物均为化名)
参考资料:
TIME《OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic》财经《火爆“智能”下的惨淡“人工”》第一财经《人工智能背后的“人工”:谁在训练AI?》标签:
-
训练人工智能的中国县城工人
靓仔,来黑网吧不?
-
福建摸清自然灾害综合风险心中有“底” 防灾减灾应对有“数”|今头条
福建省应急管理厅厅长丘毅介绍,普查工作开展以来,福建稳步推进普查调查、数据汇交、评估区划等工作。他表示,基于本次综合风险普查成果,研
-
环球即时:19-去甲-4-雄烯二酮(734-32-7)商品报价动态(2023-03-30)
交易商品牌 产地交货地最新报价19-去甲-4-雄烯二酮(734-32-7) 98%湖北弘景化工有限公司湖北湖北省 孝感市2900元 公斤
-
周鸿祎谈“马斯克呼吁暂停GPT-5研发”:不发展才是最大的不安全,中国一定要迎头赶上
上证报中国证券网讯(孙小程记者罗茂林)3月30日,周鸿祎在微博上表示,“昨天马斯克呼吁暂停GPT-5的研发。我自己是做安全的,但我坚定地认为
-
3月30日竞彩篮球:绿军火拼雄鹿!榜首大战一触即发!
3月30日竞彩篮球赛事由3场欧篮联和2场美职篮组成!其中凯尔特人和雄鹿将上演东部榜首大战!3月30日竞彩篮球赛程:周四301欧篮联博洛尼亚VS伊斯
-
德惠市好日子休闲度假有限公司 最新
1、德惠市好日子休闲度假有限公司于2017年05月11日成立。2、法定代表人朱玉兵,公司经营范围包括:餐饮服务、旅游
-
14个行业获融资净买入 计算机行业获净买入最多
据wind统计显示,申万所属的31个一级行业,3月29日共有14个行业板块获融资净买入,净买入金额在
-
【当前热闻】长沙二手家具市场图片_长沙二手家具市场
1、在四方坪这边有,就是车站北路和三一大道的十字路口的东南角那里有个旧货市场!都是卖家具的!书院路改造后家具旧货市场搬到
-
男童被坠楼者砸中不治身亡 警方凌晨通报
3月29日,有媒体报道西安南郊一小区有人坠楼,不幸砸中路过的一名男童。男童被送医后,经抢救不幸身亡。3月30日凌晨,西安
-
【贵州日报评论员文章】让优势更优强势更强 天天新视野
做好“富矿精开”这篇大文章,要完整、准确、全面贯彻新发展理念,牢牢守好发展和生态两条底线,从战略全局高度深刻把握能源产业在全省...
-
热讯:去年RCEP成员国在琼新设外资企业196家
近年来,海南外向型经济高速发展:2022年,全省货物进出口总额2009 5亿元、增长36 8%,增速排名全国第二;服务进出口总额353 62亿元、增长22 9
-
年内30家公募基金旗下739只产品参与定增 “量化+”等多策略基金加入渐成新趋势
截至3月29日,年内已有30家公募旗下的739只产品参与了定增。而长期以来,参与定增的主力军往往是股票型或偏股混合型基金,但从年内参与定增的
-
巴黎月薪资排行:姆巴佩600万欧居首 内马尔第二、梅西第三
巴黎月薪资排行:姆巴佩600万欧居首内马尔第二、梅西第三,巴黎,姆巴佩,维拉蒂,里奥梅西,德国足球,月薪资排行,基利安·麦巴比,利昂内尔·梅...
-
3月29日基金净值:建信鑫瑞回报灵活配置混合最新净值1.0497
3月29日,建信鑫瑞回报灵活配置混合最新单位净值为1 0497元,累计净值为1 5021元,较前一交易日上涨0 0%。历史数据显示该基金近1个月上涨0 2%
-
世界实时:过年送礼说什么话,暖心实用的礼品推荐
过年送礼说什么话,这几款小礼物不仅意义非凡,并且还很新奇哦。过年送礼物这件事,真是让人眼花缭乱。小编推出过年都送什么礼物
-
工行菏泽分行开展现金网格化服务 践行社会责任|天天热点评
工行菏泽分行开展现金网格化服务践行社会责任,现金,央行,工行,金融知识
-
午时茶颗粒儿童用量4岁_午时茶颗粒儿童用量_天天观热点
1、下午茶颗粒的儿童剂量没有明确的标准。儿童剂量应根据儿童不同年龄、个人体质、生长发育情况、不同临床症状选择。因为每个人
-
今日魔钻开通代码(魔钻开通方式)
魔钻开通代码,魔钻开通方式很多人还不知道,现在让我们一起来看看吧!1、当月首次使用手机短信开通魔钻服务有72小时的免费期,在免费期内关闭
-
【环球报资讯】中国中冶:2022年归属股东净利润102.72亿元
3月29日,中国中冶发布2022年业绩快报。报告期内,营业收入为5926 69亿元,较2021年的5,005 72亿元增加920 97亿元(增幅18 40%)。净利润为129 2
-
社评:这个“民主峰会”最该给美国开点药
美国精心筹办的所谓第二届“领导人民主峰会”,于3月28日拉开帷幕。这次在形式感上比第一届做得更足,为了避免被人批评“美国中心主义”,...
-
热消息:韩美两军实施联合登陆突击演习,日媒:规模为5年来最大
韩美海军和海军陆战队3月29日在庆尚北道浦项一带海域和空中进行联合登陆突击演习。当地时间2023年3月29日,韩国浦项,在美国和韩国海军陆战队
-
3月29日 建材日报 快消息
盘面回顾:盘面螺纹延续震荡。期钢低位抬升,主力螺纹收4151涨30涨幅0 73%,铁矿890 5涨13 5,热卷4271涨35,焦炭2670跌16。截至29日15:00
-
中石化是最大客户!号称市占率老二,新黎明却比不过俩同行!
-
涉事煤矿回应林场主跪地求供水是什么情况|全球快看
涉事煤矿回应林场主跪地求供水今天的热度非常高,现在也是在热搜榜上了,那么具体的涉事煤矿回应林场主跪地求供水是什么情况呢,大家可以一起
-
什么叫德尔塔(什么叫德尔塔病毒)|全球简讯
德尔塔是新冠病毒变异毒株,最早于2020年10月在印度被发现,这一变异毒株被世卫组织命名为B 1 617,并在5月31日用希腊字母(德尔塔)命名。感染
-
环球即时看!宁王直播看LPL饭堂,笑笑一番话让他破防,当场表示要反击
最近关于电竞圈的热度是很多人讨论的,最近虽然春季赛的常规赛已经结束了,但是热度还没有消散,因为季后赛还没有到来,所以这段时间大家就需
-
【玉都文艺特刊】南阳报业传媒集团:举办2023年教师通讯员培训班 文\ 高峰
南阳报业传媒集团:举办2023年教师通讯员培训班
-
雅化集团:3月28日融资买入1812.05万元,融资融券余额19.75亿元
3月28日,雅化集团(002497)融资买入1812 05万元,融资偿还4096 88万元,融资净卖出2284 84万元,融资余额18 39亿元。
-
康平县气象局发布大风蓝色预警【Ⅳ级/一般】【2023-03-29】
康平县气象局发布大风蓝色预警【Ⅳ级 一般】【2023-03-29】
-
速讯:预警!今年来最大范围雨雪或来袭!
3月底之前北方暖意渐增,20℃线将直抵东北南方阴雨持续,气温起伏波动较小一进入4月,天气将会变得复杂中央气象台预计4月1-5日会有一股冷空气