主管:张家界市委宣传部   主办:张家界日报社    张家界市唯一新闻门户网
我要投稿| English| 한국의| ภาษาไทย| Japanese| Русский язык
您的位置: 首页 >  千城频道> 名企名牌 > 正文

摆脱“脏苦累”,数据堂智能化数据处理技术为数据标注行业助燃

2020-03-19 10:03:042  来源:百网联盟 张家界日报社微信
    人工智能技术日新月异,优质训练数据不可或缺。IDC报告称,2023年,中国人工智能基础架构市场将超过80亿美金,未来五年年复合增⻓率将达33.8%。随着人工智能的大规模落地,数据标注的市场也将迎来爆发式增长。

    2015-2018年数据标注与审核行业市场规模与增速情况

    传统的人工智能数据生产完全倚赖人工,人工一次性标注,一次性算法训练,导致处理数据成本高效率低,无法规模化。同时,随着应用端数据需求不断增大、复杂度逐步提升,传统的人工智能数据生产方式已无法快速响应企业研发需求。

    图片来自锌刻度

    业内首家人工智能实验室

    数据堂立足于人工智能行业,为持续提升人工智能数据处理技术,打造智能化数据处理工厂,2018年成立了人工智能实验室。该实验室聚集国内外数十位人工智能科学家,专注于人工智能数据智能化处理技术、多模态数据、大数据处理等方面的研究,并获得多项发明专利。

    各项专利证书

    在王大亮博士、丰强泽博士等多位专家的带领下,人工智能实验室研发出“基于Human-in-the-loop智能辅助标注技术”,并荣获该项技术专利。简单来说,Human-in-the-loop的核心是将人工处理的数据教给机器学习,机器将学习结果反馈给人工进行再校对,不断重复以上过程来提升准确率。

    智能化数据处理技术

    智能数据处理技术在AI数据标注作业时,在数据准备、预处理、质检、交付等环节都可以发挥作用。基于Human-in-the-loop智能辅助标注技术,数据堂提出了“智能数据柔性制造”的观点,循环迭代、逐渐增强,显著提高数据生产效率,减少人工出错率,引领国内人工智能数据处理方式变革。

    数据智能化处理技术主要包括预识别技术、数据预处理、数据脱敏、数据质量评估以及应用在客户端工具上,提升数据处理效率。

    l预识别:语音识别、目标检测、关键点检测、多目标跟踪、人脸检测、发音词典,可为标注工作量减少10%~30%。

    l数据预处理:数据筛选、数据去重、关键帧抽取、语音端点检测、文语对齐,为采集和筛选降低工作量50~60%。

    l数据脱敏:人脸脱敏、文本脱敏、语音特征生成、GAN数据生成。为数据交付工作量降低80~90%。

    l数据质量评估:语音数据产品训练评估、模型训练。

    l客户端工具:交互式抠图客户端、视频标注工具,为复杂&连续数据标注工作效率提升30%。

    设立博士后工作站

    2019年,北京博士后工作交流暨新设博士后站授牌仪式时,数据堂正式获批设立博士后科研工作站。这标志着数据堂在搭建高端人才培养平台、促进企业科技创新方面迈上了一个新台阶。

    数据堂获批设立博士后科研工作站

    获批建立博士后科研工作站,数据堂将充分利用博士后站人才产业链条的资源作用,招收和培养博士后科研人员,搭建人工智能技术人才与企业间的合作桥梁,与国内外高校以及其他博士后科研工作站建立战略合作关系。推动数据堂与高校、科研院所开展深度课题合作,夯实复合型高层次人才的培养,进一步增强自主创新能力,为行业繁荣和企业发展增添无穷能量。

    数据服务行业蓬勃发展,数据堂在人工智能数据服务领域将持续发挥标志性、导向性和创新性作用,不断优化自身业务与技术实力,为人工智能技术研发与应用提供数据能源支持。

分享:
  发表评论 共有 条评论 
用户名: 密码:
验证码:
 
新闻评论(共有 0条评论)
OA办公系统| 关于我们 | 联系我们 | 版权声明 | 广告服务 | 人才招聘 | 会员中心| 帮助文档 | 商务合作 | 百度新闻地图| BaiduMap| 设为首页| 加入收藏
主管单位:张家界市委宣传部 主办单位:张家界日报社 Copyright ©2005-2011 www.zjjnews.cn All Rights Reserved. 版权所有:张家界新闻网
电信增值业务经营许可证号:湘B-20080013 ICP备案信息:湘ICP备11006152号-1 互联网新闻信息服务许可证:湘20100035
本网站所有新闻、信息和各种专题专栏资料,均为张家界新闻网所有。未经协议授权,禁止下载使用。