当前位置:首页 > 智能 > VR

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

VR 2019-03-25 10:56:44

来源:网易智能   责任编辑:李琦

导语

Kumaramputhur是喀拉拉邦帕拉卡德区(Palakkad)西北约45公里处的一个小村庄,大约有3500户人家,可能不比一般的班加罗尔郊区大多少。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

  

  除此之外,它的性别比例和识字率都低于全国水平,除了一些现代化的痕迹,Kumaramputhur似乎没有什么值得注意的。

  然而,高中辍学生Mujeeb Kolasseri就是在这个村子里指挥着一个由200多名员工组成的团队,为美国、欧洲、澳大利亚和亚洲的客户提供人工智能解决方案。28岁的科拉塞里是Infolks公司年龄最大的成员,Infolks是他三年前创办的一家公司。

  在连接帕拉卡德和科泽科德(Kozhikode)的高速公路边,不起眼的办公室里,团队的大部分成员都在为自动驾驶汽车上摄像头拍摄的车辆、交通灯、路标和行人的图像进行高亮和标签处理。这项工作困难的地方是精确地标记被LIDAR激光雷达的远程传感器捕获的数据,这为自动驾驶车辆创建3D地图,获得对周围物体的感知奠定了基础。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

  Infolks的办公室

  大约2000公里外,在加尔各答西南边缘——Metiabruz的胡格利河岸(the Hooghly river)附近,大约200名女性正在给图像贴标签,这些图像将被用于训练自动驾驶汽车和增强现实系统中的算法。总部位于印度和美国的数据注释公司iMerit的技术和营销副总裁贾伊纳塔拉詹(Jai Natarajan)表示:“她们从事最尖端的图像相关项目。”

  iMerit在加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的其他办公室也有数千名员工在做着类似的工作,他们为数百万条数据打上标签,帮助培训和推动全球公司开发的人工智能算法。

  随着全球企业巨头拥抱人工智能,以及为人工智能算法提供支持的数据集渐渐成为私人财产,企业需要在需求、质量控制、反馈和可交付成果方面与数据标签团队进行更高程度的合作。

  由于世纪之交的业务流程外包热潮,印度人对此类术语和需求并不陌生。数据注释和标记也是过程驱动的工作,仅需要精确的技能,即使受过高中教育的人也可以通过训练走上岗位。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

  iMerit创始人兼首席执行官Radha Basu在Metiabruz中心

  随着以众包为主的第一代工作被更高级的需求取代,Infolks、iMerit和Playment等公司开始迎合全球客户的需求,这使印度成为一个新兴的数据标签和注释中心。

  “这是一个新兴行业……在印度,所有人都开始意识到它带来的巨大机遇,”印度软件和服务公司协会(Nasscom)高级副总裁兼首席战略官桑吉塔古普塔(Sangeeta Gupta)表示,“人工智能需要正确标注、分类和匿名化数据,与此同时也必须使用熟练的人力,这就是AI为印度带来的机遇。”

  根据研究公司Cognilytica的一份报告,到2023年底,人工智能和机器学习相关数据准备解决方案的全球市场预计将从2018年的约5亿美元增至12亿美元。

  什么是资料标签?

  数据标记和注释是一个过程,通过标记、着色或高亮显示来自相机、传感器、电子邮件和社交媒体等非结构化来源的数据集,以及来自数据库等结构化来源的数据集,来标记差异、相似性或类型。这样,当数据被输入一个算法用于训练人工智能系统时,算法可以正确地识别数据并从中学习。

  假设你想训练一种算法,使用车载摄像机捕捉的图像来理解路标。数据注释器或标签器将使用注释工具检阅所有的图像数据集,标记或突出道路标志,并将其提供给人工智能算法学习。下次当算法在实际行驶中遇到路牌时,它也许就能够识别路牌了,对道路标志图像的训练越多,该算法的精度就越高。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

  Infolks的创始人兼首席执行官Mujeeb Kolasseri

  人工智能或机器学习迅猛发展的原因之一是,人们开始可以从互联网、社交媒体、传感器和其他来源获取大量数据。今天的算法有能力吸收更多的数据,因此更加准确。只要数据良好且清洁,再向算法输入数据集就会逐步提高其准确性,这导致了在人工智能算法和应用程序领域对良好注释和标记数据的无尽需求。

  据Cognilytica的报告,如今,在大多数人工智能和机器学习项目中,数据准备和工程任务占据了80%以上的时间。

  总部位于班加罗尔和旧金山的Playment公司首席执行官席特哈尔特霍尔(Siddharth Mall)表示:“如果你谈论自动驾驶,一个小时的视频数据可以带来800个工时的工作量。

  人工智能村庄

  高中辍学后,Kolasseri在铝制造业工作,但由于健康原因不得不离开。在印度,他注册了亚马逊的众包就业市场Mechanical Turk (MTurk),开始接受来自全球各地公司的批注工作。

  “我能够保持99.8的评分,因为我能够提供质量,曾经工作过的一家公司认可我的工作,直接找到我,为我提供了更多的工作。“我们最初在家里工作,2016年初,当我们开始成长时,我决定注册并成立这家公司。”

  创业之初,Kolasseri的兄弟和朋友投资了2.5万卢比,帮助建立了这家公司,后来他们加入了董事会。如今,Infolks是一个不断壮大的团队,其大部分员工都来自Kumaramputhur及其周边地区。

  Kolasseri说:“公司的愿景是把我们的村庄改造成一个全球性的村庄,同时为农村地区的年轻人提供经济机会。我们近200名员工中,90%的人年龄在20到25岁之间。”

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

  Kolasseri在Infolks办公室与团队进行互动

  尽管该团队致力于医疗、机器人和农业等领域的数据集,但约75%的工作属于自动驾驶汽车领域。Kolasseri的客户包括德国汽车公司戴姆勒(Daimler)和其他国际科技公司。Kolasseri表示无法透露与这些公司签署的协议。

  对于注释,公司使用客户端提供的工具,如果客户端没有第三方工具,则使用第三方工具。“我们的研发团队正在开发自己的注释工具,目前正在进行测试,应该在未来几周内推出。Infolks还在Kozhikode区附近的一个科技园设立了另一个办公室。科拉塞里希望,这将提高公司的收入,因为新地点属于经济特区和税收飞地,将有助于扩大其全球客户基础。

  印度的人工智能后勤办公室

  在开始限制非美国员工之前,亚马逊的MTurk曾是印度一个受欢迎的寻找数据标签和注释工作的平台。尽管MTurk后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk在数据标记工作者中的受欢迎程度开始下降。此外,包括Spare5、Cloudfactory和Figure 8在内的新众包平台也进入了这个市场,这些平台更加专注于标注和标签市场。

  Kolasseri说:“在创办公司之前,我在2015年至2016年期间一直在Mturk平台上工作,但现在有其他平台也在为众包工作提供服务。”“但由于企业客户非常关注数据安全,尤其是考虑到许多数据集都是专有的,因此要他们信任这些平台上的工作人员就变得更加困难。”

  Playment由flipkart employees Mall、Ajinkya Malasane和Akshay Kumar Lal共同创建,它以一种略微不同的方式渗入了注释和标签行业。该公司为各种使用案例开发了大量注释工具,并开发了一个众包平台,由接受过这些工具培训的标记和注释人员组成。该公司直接与有数据注释或标签业务的客户或IT服务公司合作。

  “要将原始数据转换为带注释的结构化数据,你需要前端注释工具、熟练且具有成本效益的人工劳动力,而且由于要处理大量数据,需要有合适的中间设备来支持不同的工作流程并管理远程劳动力,”Mall说。

  Playment的众包平台拥有超过30万名注释和标签工作者。其中,该公司承认有约2.5万名“高技能顶级玩家”,据Mall称,这些玩家几乎整天都在该平台上,平均月收入在2万至3万卢比之间。

  Playment的大部分业务也来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai和 Continental AG。这些工作的一个主要内容是自动驾驶汽车。

  iMerit的战略以员工为中心。2000多名员工中大约80%来自月收入低于100美元(7000卢比)的家庭,其中大约一半是女性。“我们的社会使命是在贫困社区和企业或产业较少的地区创造技术就业机会。我们在科技知名度稍低、科技就业机会较少的城市开展业务,”纳塔拉詹表示。

  这种所谓的利他主义也具有良好的商业意义。纳塔拉扬表示:“我们的合作伙伴和工作地点,使我们能够以非常划算的方式扩大数据注释和标签团队的规模,并向我们的客户交付高质量的工作。”

  尽管iMerit的大部分业务来自美国,包括微软、eBay和Tripadvisor,但大约90%的数据注释和标签工作是在印度完成的。

  注释的自动化

  纳塔拉扬表示,与5年前人工智能致力于区分猫和狗不同,现在的人工智能处理的是更高级的工作。“机器学习已经取得了进步,所以没有人要求我们给狗和猫打分。那些日子已经一去不复返了。如今,每家公司都有定制的需求和非常细微的要求,因此不可能实现自动化,也不可能自动地抛出数据,然后让一群匿名人士给它贴上标签。”

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

   

  他表示,基于人工智能的自动注释工具在未来必将出现但不构成威胁。“自动注释工具本身就是经过良好训练的注释的结果。当你试图解决一个问题时,这些工具只能把你带到一定的高度,但要超越这个高度,你就需要自己的自定义注释,”Natarajan说。

  但这可能只是在自动化工具能够有效地创建良好的数据集之前。“从长远来看,我们确实认识到,我们的工作是让我们从事的事业变得过时。当我们的客户成功时,我们的项目就结束了,因为人工智能把它捡了起来。“但我们也发现,它从来不是100%,它始终是一个不断学习和改进的过程。而且,客户将转向下一个问题,并将重新从零开始工作。”

  换句话说,印度的数据标签和注释公司尚未见顶。

免责声明:以上内容为本网转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点、亦不代表本网站赞同其观点或证实其内容的真实性。如有侵权请联系本网删除。
Top