FinOps有望降低企业50%+的云成本! 了解详情
写点什么

快手上线手部姿态估计功能,支持任意手势姿态估计

  • 2019-04-25
  • 本文字数:1635 字

    阅读完需:约 5 分钟

快手上线手部姿态估计功能,支持任意手势姿态估计

随着技术的发展,研发人员越来越希望寻找一些不同的人机交互方式,其中实时手部姿态估计就是科学家们重点关注的研究方向之一 。简单的说,手部姿态估计是让计算机理解人体肢体语言的一种手段。通过该技术,人机交互不再限于文字接口或者鼠标键盘控制的用户图像界面。


近日,快手上线了手部姿态估计功能,成为行业首家。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    用户只要按照说明做出相应的手势,就可以被加上各种有意思的特效。用户在使用这款产品拍摄时,算法会自动识别出手型类别,并估计手部关键点位置。根据关键点位置和手型类别,可以产生不同的特效效果或者跟画面内容进行人机交互。用户既可以通过手型触发相应的特效效果,也可以实现指节级精准控制和跟随。

    揭秘手势识别,快手解决了哪些问题?

    手势识别技术由快手 2016 年组建的 Y-Lab 团队手势研发小组研发。这一年,为了研发出更多能给用户带来新奇体验的新技术,快手组建了一支由高学历研发人员组成的队伍,研究领域涉及人工智能、机器学习、计算机视觉、计算机图形学和增强现实等。2018 年,为了让技术能更好的和产品结合,快手将 Y-Lab 更名为 Y-tech。


    据 Y-tech 手势研发组负责人介绍,手势识别技术是指检测图片或视频中的人手,并预测检出人手的手型以及关键点位置的技术。


    常见的手势识别技术包括:手型识别、二维手部姿态估计和三维手部姿态估计。从手型识别到三维手部姿态估计,需要识别的信息越来越多,研发困难指数级增加。在上面演示的功能里,就包含了:人手检测、手型识别和二维手部姿态估计。


    目前手型识别在业界已比较成熟,而二维手部姿态估计目前还不是很成熟,据介绍,快手应该是业界首家在移动端上应用该技术的公司。而三维手部姿态估计技术难度较大,目前只能通过特殊的硬件,比如双目和深度摄像头才能实现。


    研发手势识别过程中,Y-tech 团队积累了很多技术和解决方案,包括算法策略、网络结构设计、模型优化和底层加速等,这些经验也完全可以复用到其他场景中。


    相比于目前人工智能领域落地比较广泛的人脸识别,手势识别技术存在着一些技术难点,Y-tech 手势研发负责人表示:“手部的自由度很高,自遮挡严重,特征不明显,相对人脸会更难一些。”


    以快手为例,目前这一功能可同时检测多手,支持多达 17 种手型识别,并能够识别任意手势 21 个二维关键点。为了实现这些功能,研发团队克服了不少难题:


    • 人手在相机中的占比较小,高效的进行小目标检测目前在业界是很难的问题;


    • 人手自遮挡严重、关节活动自由度高;


    • 用户手机只有单目图像,需纯靠视觉算法实现;


    • 用户手机摄像头拍摄质量不同,用户在摆同样手型时方式多样。


    该负责人表示,团队先是改进了检测算法的框架,提高了小目标的检测能力,并且根据人手的特点,融合先验知识,降低问题复杂度,达到了提升预测效果。


    由于不同用户手机的运算能力是不同的,而同一款软件要想被更多用户使用,就要兼顾各种机型的情况,快手 AI 实验室通过两方面解决了这一难题:


    一、在算法层面,研发人员设计了高效的神经网络结构,并且在不同的机型上采用了不同算法策略;


    二、在工程实现上,通过快手自研的 YCNN 对不同手机的硬件架构做了高度的适配和性能优化,能够使用 CPU、GPU、NPU、DSP 等多种运行模式,解决了 AI 技术运行受限于用户设备计算量的问题。

    下一步:未来将尝试三维手部重建

    对于快手来说,在手机应用中增加手势识别功能是一项尝试,功能上肯定是有不少需要完善的地方,研发团队告诉我们,目前该产品算法对运动模糊和手部重叠的处理还不完善,是接下来需要重点解决的问题,并且未来团队会尝试在端上进行三维手部重建,为更精确的动作识别和交互做技术储备。除了在短视频领域有所应用,在游戏、增强现实、直播、教育等领域应用手势识别技术也将成为一种趋势,同样也是快手探索的方向。


    手势识别技术发展至今,已经有不少企业在不同的领域进行过尝试,未来手势识别的应用场景也是十分广阔的,除了小手识别和运动模糊等传统问题之外,如何结合端上双目摄像头和深度摄像头信息提升手势识别效果也将是行业重点关注的问题。


    2019-04-25 16:2410460
    用户头像
    陈思 InfoQ编辑

    发布了 576 篇内容, 共 249.0 次阅读, 收获喜欢 1283 次。

    关注

    评论 3 条评论

    发布
    用户头像
    手势识别应用也是分不同等级的,这篇里行业首家是说快手21个关键点都能识别,而且在实际应用兼顾中低端机型吧。musicaly的那个只是demo,目前抖音应用的貌似只有手型识别和指尖识别?
    2019-04-29 16:36
    回复
    用户头像
    哈哈哈,行业首家,一个真敢吹,一个真敢写,小编自己好好玩玩抖音及其他短视频类app再写文章比较靠谱
    2019-04-25 23:15
    回复
    用户头像
    首发吗?17年在上海的GDD上musical.ly(之后被字节跳动收购,合并入抖音)就已经展示了哦:https://36kr.com/p/5107908,现在这个技术早就在抖音里面的特效里用上了吧
    2019-04-25 23:04
    回复
    没有更多了
    发现更多内容

    大数据培训-如何连通 Hive 数仓和ClickHouse

    @零度

    大数据 hive Clickhouse Seatunnel

    教你VUE中的filters过滤器2种用法

    CRMEB

    cdr2022下载百度网盘

    茶色酒

    cdr2022

    架构训练营模块一作业

    小马

    #架构训练营

    微信业务架构图&学生管理系统毕设架构设计

    大眼喵

    「架构实战营」

    Java培训-实现定时任务的几种方式

    @零度

    Java

    [Day5]-[滑动窗口] 处理字符串

    方勇(gopher)

    LeetCode 数据结构与算法

    10年资深架构师分享 | 普通程序员向架构师进阶之路

    云智慧AIOps社区

    程序员人生 高薪 架构师 技术分享 职场发展

    突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代

    阿里云弹性计算

    虚拟化 持久内存 基因测序

    web前端培训-检测Javascript类型的4种方式

    @零度

    JavaScript 前端开发

    模块一

    飞天流逝

    阿里云:已有10000家企业在云上构建数据湖

    Apache Flink

    云计算 阿里云 数据湖 云原生

    《软件开发的201个原则》思考:5. 不要试图通过改进软件实现高质量

    非晓为骁

    个人成长 软件工程 软件开发

    当心,你搞的Scrum可能是小瀑布

    华为云开发者联盟

    Scrum 敏捷开发 软件开发 瀑布

    【直播回顾】OpenHarmony知识赋能第四期第四课——音频驱动开发

    OpenHarmony开发者

    OpenHarmony HDF框架 音频驱动开发

    在 2040 年前,实现净零碳排放

    亚马逊云科技 (Amazon Web Services)

    方法论 亚马逊

    模块二作业

    HZ

    架构实战营 「架构实战营」

    谈谈有什么方法可以快捷实现多场景下的线程安全

    华为云开发者联盟

    Java volatile 多线程 线程安全

    企业实施知识管理的建议

    小炮

    企业知识管理

    清华自研时间序列数据库Apache IoTDB原理解析

    云智慧AIOps社区

    数据库 时序数据库 消息队列 智能运维

    What's new in dubbo-go-pixiu 0.5.0

    apache/dubbo-go

    云原生 dubbo 微服务网关 dubbo-go

    “学生管理系统”毕设架构设计

    鱼恨水

    极客时间

    对话LigaAI创始人周然:在研发SaaS赛道,「颠覆」Jira | PLG十人谈

    LigaAI

    SaaS LigaAI 研发协作平台

    腾讯AI Lab姚建华博士当选 2022 美国医学与生物工程院会士

    科技热闻

    DevEco Device Tool 3.0 Release新版本发布,支持多人共享开发、源码级调试

    HarmonyOS开发者

    HarmonyOS DevEco Device Tool

    轻盈潇洒卓然不群,敏捷编辑器Sublime text 4中文配置Python3开发运行代码环境(Win11+M1 mac)

    刘悦的技术博客

    Python ide 编辑器 Python3 Sublime

    博文推荐|深入解析 BookKeeper 多副本协议(一)

    Apache Pulsar

    开源 云原生 中间件 bookKeeper Apache Pulsar

    微信业务架构图

    万物皆然

    架构实战营

    模块一作业

    杨波

    「架构实战营」

    在 AWS 上运行 CAE 工作负载的五个原因。

    亚马逊云科技 (Amazon Web Services)

    产品 计算机

    Linux下网络编程-UDP协议探测在线好友

    DS小龙哥

    4月月更

    • 需要帮助,请添加网站小助手,进入 InfoQ 技术交流群
    快手上线手部姿态估计功能,支持任意手势姿态估计_AI_陈思_InfoQ精选文章