专题论坛3:具身智能
.
发布人:  发布时间:2024-07-26   动态浏览次数:

论坛主席:徐凯 国防科技大学


主席介绍:徐凯,国防科技大学教授,国家杰出青年基金获得者。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统。发表TOG/TPAMI/TVCG等A类论文90余篇,其中图形学顶会SIGGRAPH论文29篇。担任图形领域顶级国际期刊ACM Transactions on Graphics的编委,以及领域内多个重要会议的主席。任中国图象图形学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖(排名3)、军队科技进步二等奖、军队教学成果二等奖等。


时间:8月16日 15:40-17:30

地点:三楼国际厅B+C



论坛讲者:董豪 北京大学


讲者介绍:董豪,北京大学计算机学院前沿计算研究中心、博雅助理教授、博导、入选国家青年人才计划。研究目标是打造具身智能机器人,研究内容涉及物体操作、大模型和导航,旨在寻找具身AGI的scaling law,致力于为工业应用和家用场景创建具有成本效益的人形机器人。


报告题目:具身智能关键技术研究

时间:8月16日 15:40-17:30

地点:三楼国际厅B+C

报告摘要:在近年来,具身智能和智能机器人领域引起了广泛的学术和产业关注,特别是在探索基于物理身体在开发环境中进行智能感知、决策和执行的能力方面。然而,该领域所面临的主要挑战之一是缺乏大规模的训练数据。本报告将深入研究这一挑战,并详细介绍我们在仿真学习和大模型技术领域的最新研究成果。通过这些探索,我们的目标是赋予具身智能算法对物体操纵、任务规划和导航的泛化能力,以加速通用具身智能的实现,使机器人能够在开放环境中执行复杂的任务。


论坛讲者:胡瑞珍 深圳大学


讲者介绍:胡瑞珍,深圳大学特聘教授,博士生导师,国家优秀青年科学基金、广东省杰出青年项目获得者。研究方向为计算机图形学,长期从事智能几何建模与处理方面的研究,发表 ACM SIGGRAPH/TOG 论文二十余篇;入选中科协青年人才托举工程;荣获亚洲图形学协会青年学者奖、全国几何设计与计算青年学者奖;担任期刊IEEE TVCG、IEEE CG&A和Computers & Graphics等国际期刊编委;担任国际会议SGP 2024、CVM 2023和SMI 2020程序委员会主席,连续多年担任SIGGRAPH等大会程序委员会委员;担任中国计算机学会计算机辅助设计与图形学专委会常委、计算机图形学与混合现实在线平台(GAMES)线上活动运营负责人。


报告题目:具身智能的图形学视角:三维交互的探索之旅

时间:8月16日 15:40-17:30

地点:三楼国际厅B+C

报告摘要:本报告将简单回顾讲者在计算机图形学与具身智能领域的科研探索路径,如何从传统的几何分析过渡到三维交互的理解与生成,并应用于具身智能体与环境的交互任务执行。在这一探索过程中,逐步开始接触和学习所涉及到的图形学的其他研究方向和相关问题,包括仿真与动画、材质与渲染等。讲者希望通过个人科研经历的分享,启发大家认识到图形学在具身智能领域的应用潜力,并鼓励更多研究者投身于这一跨学科领域的探索与交流。


论坛讲者:王鹤 北京大学


讲者介绍:王鹤博士是北京大学前沿计算研究中心(CFCS)的助理教授和博士生导师。他创立并领导了北大具身感知与交互实验室(EPIC Lab),研究目标是通过发展具身技能及具身多模态大模型推进通用具身智能。他同时是北大-银河通用具身智能联合实验室主任,北京智源人工智能研究院具身智能研究中心主任。他已在计算机视觉、机器人学和人工智能的顶级会议和期刊(CVPR/ICCV/ECCV/TRO/RAL/ICRA/NeurIPS/ICLR/AAAI等)上发表五十余篇工作,其论文获得ICCV2023最佳论文候选,ICRA2023最佳操纵论文候选,2022年世界人工智能大会青年优秀论文(WAICYOP)奖,Eurographics 2019最佳论文提名奖。他担任了CVPR2022和WACV2022的领域主席,Image and Vision Computing的副主编和诸多顶会的审稿人、程序委员。在加入北京大学之前,他于2021年从斯坦福大学获得博士学位,师从美国三院院士Leonidas. J Guibas教授,于2014年从清华大学获得学士学位。


报告题目:三维具身多模态大模型系统

时间:8月16日 15:40-17:30

地点:三楼国际厅B+C

报告摘要:本体层、技能层和大模型层构成的三层级具身多模态大模型系统是实现通用机器人的一种方案。本报告将讨论通过三维视觉打造多个泛化的移动和操作技能,包括抓取、铰接类物体操作、柔性物体操作和建图导航等等。而大模型层则负责大脑的能力,本报告将展示GPT-4V为代表的非具身多模态大模型进行视觉感知、任务规划和调用中层的三维视觉技能,实现从家用电器泛化操作到开放指令物体摆放的能力。最后,报告将展望端到端具身多模态大模型,讨论其中的机会和挑战。


论坛讲者:弋力 清华大学


讲者介绍:弋力博士,现任清华大学交叉信息研究院助理教授,国家优青(海外)。他在斯坦福大学取得博士学位,导师为Leonidas J. Guibas教授,毕业后在谷歌研究院任研究科学家。在此之前,他在清华大学电子工程系取得了学士学位。他近期的研究兴趣涵盖三维视觉和具身人工智能,他的研究目标是使智能机器人具备理解三维世界并与之互动的能力。他在计算机视觉、计算机图形学以及机器学习领域的顶级会议发表论文六十余篇,并担任CVPR 2022-2024、IJCAI 2023、NeurIPS 2023-2024领域主席。他的工作在领域内得到广泛关注,引用数20000+,代表作品包括ShapeNet Part,光谱图CNN,PointNet++等。


报告题目:基于人类行为仿真的可泛化人机协作

时间:8月16日 15:40-17:30

地点:三楼国际厅B+C

报告摘要:具身智能很重要的研究目标在于使机器人能够与人类进行交互和协作。近年来,尽管在教授机器人无需人类参与的操作技能方面已取得了重大的技术进展,但在可扩展地学习人机协作技能以应对各种任务和人类行为方面仍存在滞后。现实世界中针对人机协作的机器人训练成本高昂且风险较大,从可扩展性的角度来看,这种训练方法在实际应用中并不实际。因此,在将机器人部署到现实世界之前,有必要在虚拟环境中模拟人类行为并对机器人进行训练。在本次报告中,我将讨论我们近期在采集大规模人物交互数据集、模拟能够推广到新环境和任务的逼真人类行为、以及利用可扩展的人物仿真实现可泛化人机协作方面所做的努力。通过在多样化的场景中模拟人类交互,我们创建了以人为中心的机器人仿真器。通过采用动态任务和动作规划来生成高质量的示例,我们可以训练可泛化的人机协作技能。我们相信,这种方法为推进真实世界的人机协作提供了一种强大的范式。


论坛讲者:仉尚航 北京大学


讲者介绍:仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。致力于开放环境泛化机器学习理论与系统研究,在人工智能顶级期刊和会议上发表论文80余篇,Google Scholar引用数9000余次。荣获世界人工智能顶级会议AAAI’2021 最佳论文奖。作为编辑和作者由Springer Nature出版英文书籍《Deep Reinforcement Learning》,至今电子版全球下载量超二十万次,入选中国作者年度高影响力研究精选。于2018年入选美国“EECS Rising Star”,于2023年入选“全球AI华人女性青年学者榜”、“中国科协青年百人会”。曾获国际人脑多模态计算模型响应预测竞赛第一名,ICCV持续泛化学习竞赛第一名。曾多次在国际顶级会议NeurIPS、ICML上组织Workshop,担任AAAI 2022&2023&2024 高级程序委员。仉尚航于2018年博士毕业于美国卡内基梅隆大学,并于加州大学伯克利分校从事博士后研究。


报告题目:迈向开放世界多模态具身智能感知

时间:8月16日 15:40-17:30

地点:三楼国际厅B+C

报告摘要:虽然机器视觉为各个领域带来巨大成功,但已有具身智能感知往往针对封闭环境,存在闭集假设和大样本假设等局限。而现实世界中的具身智能体往往面对开放环境,存在开放环境数据域偏移和新类别动态出现等关键挑战。本次分享将针对上述挑战,介绍一系列增强开放世界具身智能感知的泛化能力,使其自动适应新环境、识别新事物的研究工作。尤其针对Corner Case等问题提出新型持续泛化学习范式和多模态大模型解决方案。


上一篇:构建大模型的国产软硬件生态返回首页下一篇:物理仿真中的经典方法与AI技术融合