在人工智能领域,生成式AI正迎来新一轮爆发。它可以像人类一样与用户聊天交流,甚至能完成撰写邮件、视频脚本、文案以及翻译等任务。在这些令人惊叹的“智能”背后,离不开人的默默支撑——数据标注师。他们为数据贴上标签,让AI更容易识别数据,进而更好地服务人类。

2020年2月,数据标注师被正式纳入国家职业分类目录。“数据标注师其实还有另一个名字——人工智能训练师,教机器学习、感知和认知世界。”在百度智能云数据标注基地业务产品负责人胡驰看来,数据标注是机器感知现实世界的起点。

“这是一份有意义的工作”


【资料图】

作为人工智能算法的“燃料”,数据是人工智能实现应用落地的必备要素,数据标注的精确度往往决定着人工智能的智能程度,大多数原始数据只有经过人工标注、加工,才能激活数据价值。数据标注师工作的意义就在于此。

“我们的工作,其实可以理解成是在做人工智能的‘老师’。”拥有4年多从业经历的韩毓蕾,如今已是一名资深的数据标注师。大专毕业后韩毓蕾在山西的小县城做了两年的瑜伽老师,这份工作虽然轻松,但却无法带来新鲜感和挑战,她开始寻找新的机会。偶然间韩毓蕾在朋友圈看到一则数据标注师的招聘公告,很快便做了决定:“我之前没有了解过数据标注行业,在网上搜索了解了人工智能行业,才知道这是一份好上手、有前景的工作,我就想试试。”

数据标注师在三维图像中进行数据标注(受访者供图)

入职后,韩毓蕾参与的第一个工作任务是无人驾驶项目,这个项目需要数据标注师对原始数据进行框选、提取、分类等处理,将其转化为机器学习可识别的专业数据。“比如前方道路上有行人,把这个人标注出来输送到程序里,程序就会告诉无人驾驶汽车‘这是行人,我们不能撞上去’。而在火车站、商场这类比较复杂的场景中,有时人和人会发生重叠,这种情况下就要耐心地区分开。”这样的工作内容在韩毓蕾看来十分有趣,也很有意义:“无人驾驶有着关乎生命安全的特殊性质,正是标注出的海量场景数据在支撑着技术容错率几乎为零的无人驾驶感知算法的训练。”

胡驰介绍,除了无人驾驶,数据标注还服务于智能安防、智慧金融、新零售、智慧家居等几乎所有人工智能场景。从这个维度来看,数据标注师对于人工智能行业的发展发挥着必不可少的支撑作用。

数据标注师前景充满可能

近年来,随着人工智能技术的不断应用,催生出庞大的数据标注需求,推动着我国数据标注产业市场的快速增长。数据标注企业不断涌现并相继落地三、四线城市,在助力当地数字产业发展的同时,也为更多普通人提供了转型、就业的新机会。

在四川内江,当地政府携手阿里巴巴合资成立了科技公司,建设包括数据标注在内的数字服务外包产业基地;广州天河区与科大讯飞共同在贵州大方县设立智慧就业车间,为当地易地扶贫搬迁群众提供贵州方言标注等工作岗位。而作为行业内最大的自建标注团队,百度智能云人工智能数据标注产业基地陆续落地山东济南、山西临汾、重庆奉节等十余个地方,其中,百度(山西)人工智能基础数据产业基地已经成为国内产值规模领先的单体数据标注基地,截至2022年5月,常驻专业数据标注师人数近5000人,累计产值超过5亿元。

百度(山西)人工智能基础数据产业基地的数据标注师们在进行标注任务(受访者供图)

在人工智能领域,有一句话流传甚广,“人工智能行业,有多少人工,就有多少智能。”根据德勤《2022年人工智能基础数据服务白皮书》数据显示,2022年中国人工智能基础数据服务市场规模达到45亿元,预计2027年市场规模将突破130亿元。

未来,数据标注师将伴随着人工智能在更多应用场景的落地和其自主学习能力的持续增强而不断成长,具备理想的职业生命周期和上升空间。

胡驰说:“比如当前被誉为最接近通用智能的大语言模型,依然离不开数据标注。它基于大规模无标注数据进行预训练,再经过精调,在各领域中得到很好的应用。这其中的一个重要环节,就是算法工程师需要使用高质量的、人类反馈的标注数据进行大模型精调,来帮助模型成长。”

谈起职业前景,韩毓蕾充满信心:“希望通过不断学习提升自己的技能水平,后续可以参与到更有挑战性和创造性的项目中去。我相信拥有了与时俱进的能力,总能在行业里找到自己的价值。”

推荐内容