RSS2025 | 清华大学!DemoGen:面向机器人操作的合成数据生成

3126
1
2025-05-07 21:16:56
正在缓冲...
64
21
209
42
大纲 1.机器人操作的端到端控制策略 2.端到端策略缺乏足够的空间泛化能力 3.如何利用DemoGen生成合成数据 4.DemoGen的性能、拓展与不足
专注于:工业3D视觉,具身智能、自动驾驶、SLAM、三维重建、无人机、机器人等前沿技术。合作:cv3d001
自动连播
40.4万播放
简介
RSS2025 | 清华大学!DemoGen:面向机器人操作的合成数据生成
01:00:35
让机器人更聪明!GRAPE 提升机器人通用性,实现多样化任务
41:10
NeurIPS'2024 | 让视频生成模型走进物理世界!
41:46
ICRA 2025 Best Paper Finalist | D(R,O) Grasp:全新交互式表征重塑跨智能体灵巧手抓取
50:24
香港科技大学 | 多传感器融合SLAM方法研究
30:12
北航开源!自动驾驶仿真系统新范式 | 利用真实场景重构自动驾驶闭环仿真
42:15
清华最新发布UniAct!具身通用动作框架!增强的具身基础模型性能远超OpenVLA
50:44
UB&CMU合作力作!实时30Hz的VL-Nav视觉语言导航系统来了!导航速度和精度直接拉满
40:38
CVPR'25 开源!GoalFlow:解锁端到端生成式策略新未来~
01:05:04
CVPR 2025 满分论文!TSP3D:高效3D视觉定位(3D Visual Grounding)
50:26
CVPR'25开源 | 自动驾驶3D重建大模型!仅需单帧6张图像,0.1秒内完成大规模场景3D重建!
01:07:31
CVPR 2025 满分论文!重建 vs 生成:解决扩散模型中的优化难题
51:07
下一个世界模型,真的需要视频生成吗?还是3D原生才是终极解法?| 如何用无人机影像,极速生成真实3D城市?| 4D城市生成如何彻底改变自动驾驶?
55:34
港科大 | 全方面超越OccWorld!OccLLM:Occ世界模型再度问鼎SOTA
39:25
具身智能空间泛化性的Scaling Law!清华新算法框架让机器人操作更加鲁棒
01:01:27
港大最新 | GPT4Scene:用Vision Language Models去理解3D场景
38:01
清华大学获X-Embodiment最佳论文奖,机器人顶会CoRL 2024获奖名单出炉
01:13:21
重磅分享!具身智能操作&灵巧手技术进展 | 四种不同仿人灵巧手方案分析 | 数据采集系统的方案综述
45:19
无需训练!零成本实现场景级别新视角生成!
01:01:02
NeurIPS'24 Spotlight | Github千星开源 | 视频生成模型真的可以模拟世界吗?
56:36
大模型时代下的端到端自动驾驶
58:27
从协同感知到通信:EI-Drive 实现真实网络环境中的自动驾驶仿真
58:29
3D点云+扩散模型+高质量演示数据!实现双臂机器人通用物体操作!
01:15:19
ECCV2024 具身智能 Workshop最佳论文 | RoboTwin:双臂操作数据飞轮,赋能数据驱动的策略学习
01:03:25
清华开源RDT-1B,揭秘全球最大的双臂机器人扩散大模型
48:49
GaussianRPG:首个开源的基于3DGS的自动驾驶闭环仿真器
41:36
雨雪无阻|毫米波成像雷达赋予具身智能鲁棒的空间感知
01:14:12
别再用SuGaR了!重磅开源SA-GS:重新定位最新大场景3D重建SOTA
58:05
浙大章国锋团队最新NIS-SLAM:突破神经隐式语义RGB-D SLAM的极限
40:09
UCL开源 | Spann3R:基于空间记忆,不估计相机参数也能实时重建
01:24:50
NeurIPS'24三维网格生成新模式!自回归大语言模型也能生成三维网格
39:58
IROS' 24 开源|GV-Bench:面向长期回环检测的几何验证评估
41:43
ECCV 2024 Oral满分论文|PointLLM:大语言模型直接理解点云
49:14
CVPR'24开源 | 吊打一切VINS!又快又好的视觉惯性导航系统!
45:05
CVPR'24 开源|特征匹配新范式:从语义区域到点的匹配框架
54:29
ECCV'24 Oral开源高赞 | 无需优化,MVSplat两张图实现高质量3DGS重建
01:14:24
上汽零束 | NeRO:基于隐式神经网络的道路重建
37:09
NVIDIA最新开源!OmniDrive:结合大模型推进自动驾驶3D感知、推理、规划
37:05
NeurIPS 24' 开源| 视图场景图MSG:拓扑理解提升空间智能新高度!
54:56
CoRL & IROS'24 | 结合LLM的人形机器人自主行为规划!
47:45
TRO'25 | 港大 eVTOL 飞行新突破!尾座式无人机在复杂环境中的自主导航
01:10:21
港科大最新!GaussianProperty:无需训练,VLM+3DGS完成零样本物体材质重建与抓取
01:24:00
港科大和北京智源联合发布 | MapNav:一种新的视觉语言导航历史表征方法
55:32
CVPR 2025|给机器人装上大脑!RoboBrain教你如何具像化操作!
53:45
当DeepSeek-R1遇上具身智能 | Reason-RFT 让机器人“看懂”空间变化,轻松帮你搞定桌面整理!
48:36
上海 AI Lab开源力作!DriveArena: 首个基于生成模型的自动驾驶闭环仿真平台
42:55
卡内基梅隆大学 | DarkGS: 移动光源3DGS!从泰坦尼克号这一幕说起
01:09:27
三维生成4.5k星开源项目 | Wonder3D单张图片变高质量三维
32:15
清华大学!应用于空地协同的激光-视觉紧耦合相对定位
55:36
ECCV'24开源 | 让照片随心所欲动起来!基于光流运动场与扩散模型的图像动画化方案
48:25
Transcrib3D:基于大语言模型三维指称表达理解SOTA
01:00:29
浙大开源 | 端到端智驾试金石:最新写实闭环自动驾驶仿真器HUGSIM
58:32
NYU开源 | CityWalker: 让机器人导航到任何地方!
01:10:22
The Storm by 3D AIGC:清华团队探索3D AIGC的无限可能!
45:05
香港科技大学!CVPR&NeurIPS2024开源 | 迈向通用可泛化的自动驾驶世界模型
44:06
中科院最新CityGaussian:VRAR时代的城市重建新标杆
52:15
自驾场景 快速训练!CarDreamer:首个开源世界模型自动驾驶平台
58:14
CVPR'24 Oral Waymo新SOTA!纯稀疏检测器SAFDNet的前世今生!
49:53
CVPR满分论文!即插即用的6D物体姿态估计大模型(BOP排行榜第一)
01:14:42
ICML'24开源 !LEO:首个三维世界中的具身通用智能体
56:06
SIGGRAPH'2024|RTG-SLAM:基于3DGS的大尺度场景实时三维重建
58:55
国防科大最新 | DistGrid:基于分布式神经辐射场阵列的大规模场景重建
33:58
CVPR'24 | XScale-NVS: 基于哈希特征流形的大场景跨尺度高分辨神经渲染SOTA
01:15:05
CVPR'25 全开源 | 机器人导航 Learn from RoomTour! 视觉语言导航的全能涨点选手
53:32
当MVS遇上Gaussian MVSGaussian 快速、可泛化的高斯重建框架!
54:38
CVPR2024开源NeRF-SLAM新SOTA:请任意选择你的高效神经表征和渲染方程?
01:09:09
港大重磅开源 | Tailor3D:定义3D物体生成编辑新范式
51:50
CVPR'24 Highlight!面向智能眼镜、人形机器人打造的第一人称视角多模态评测集!
51:20
香港理工大学 | Mini-Splatting: 从Gaussian Splatting走向最小场景表示与高效三维重建
59:48
NeurIPS'24开源|迈向灵活3D感知:用Object-Centric Occupancy大幅提升长时序3D目标检测
52:00
ECCV 2024 | LaneGAP:基于连续路径建模的车道拓扑构建算法
19:59
突破维度限制!GenXD:拿捏真实通用3D、4D生成!
42:27
北大重磅开源!基于八叉树的轻量级形状生成扩散模型
26:07
ECCV'24 | 真假难辨!自动驾驶场景语义图像合成新方案
55:05
ECCV '24开源 | HRMapNet:利用历史信息增强自动驾驶中的在线地图感知
42:52
来看看遥遥领先在做什么 | 华为诺亚自动驾驶资产生成最新工作(ECCV'24)
45:05
首个Linear RNN-based 通用3D检测框架LION, 全部SOTA!
51:23
Adobe Research | 零样本3D重建:无需真实数据也能生成逼真3D模型
36:03
CVPR'24&ECCV'24 | 上下文模型如何将3D表征压缩近百倍!3D表征压缩技术的新SOTA!
35:36
MM-Gaussian: 多模态室外3DGS SLAM
25:26
CVPR'24 | Symphonies:基于实例级建模的3D场景占用预测新SOTA!
44:21
CVPR'24 Highlight 开源 |DyNFL:使用NeRF对动态激光雷达场景仿真
36:29
上交开源 | 再现物理世界的通路:由三维重建到物理仿真
59:46
ECCV 2024 oral | 通过跟踪实现在线高清地图重建,达到SOTA性能!
31:11
首次解锁CARLA V2! 交大RethinkLab提出隐世界模型下的强化学习自动驾驶模型Think2Drive
47:18
光场分解与Gaussian Splatting:颠覆传统渲染管线的创新应用GS-ID
53:59
无需真实机械臂也可以训练具身大模型!通过Robostudio的R2S2R工具链来采集训练和部署机器人策略
22:04
CVPR'24 | KTPFormer: 3D人体姿态估计SOTA! 在Transformer下即插即用涨点!
35:29
CVPR'24 I'M HOI:拥抱多模态!融合视觉惯性感知,精准捕捉人物交互!
58:06
ICLR'24 | DiffTF:基于Transformer的SOTA大词汇3D物体生成
56:02
定制化视频生成新模范!零样本主体驱动,精确运动控制!复旦&阿里等发布DreamVideo-2
01:04:23
Co-Driver:基于 VLM 的自动驾驶助手,具有类人行为并能理解复杂的道路场景
26:18
港科大最新 | 3D目标检测新SOTA,APNovel提升140%
01:13:18
港大开源 | DreamWaltz-G: 输入文本即可生成全身动作及表情可驱动的3D数字人!
47:35
大场景重建!DoGaussian:分布式训练3DGS,速度提升6倍以上,高质量渲染
50:13
CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF!
56:02
ICML'24开源 | AVTrack:最强实时无人机跟踪算法!
53:34
CVPR 2025| 智能融合新机制!多模态大模型中的跨模态信息流
39:32
港科大最新Co-Occ!激光视觉多模态Occupancy任务!
27:36
清华最新!无人机飞行速度建模 | Localization matters too: 定位误差如何影响无人机飞行速度
52:15
NeurIPS'24 Spotlight开源 | Voxel Mamba 第一个Group-free的3D目标检测序列化模型
45:46
CVPR'24开源 | 基于可驱动3D高斯的单目人体数字化身建模
58:35
CVPR'24 开源| OMG-Seg: Beyond SAM,一种统一的图像,视频,开集,交互式的分割模型
52:57
北大&港中文&腾讯联合开源ViewCrafter!实现相机精准可控新视角视频生成+场景级3D生成
43:23
DetAny3D:任意单目图也能“万物3D”!
47:57
TRO'25 开源 | 无需中间模块!最新端到端的机器人导航方案NeuPAN!任意复杂场景下都能用!
36:49
开创立体匹配新纪元!OpenStereo:集成12种SOTA网络,支持6大主流数据集!
53:34
CVPR 2025 最佳论文候选 FoundationStereo | 英伟达开源双目深度估计大模型
54:33
面向地面机器人的激光SLAM还能做点什么?刷精度?剔动态?
47:19
CVPR'25开源 | WildGS-SLAM:适用于动态场景中的单目SLAM方法!
57:16
RAL'25开源 | 港科大重磅分享:深入探索VIO领域的重难点!
53:57
Nature Communications开源!香港大学推出会飞的象鼻,空中连续体机器人开启柔性操作!
54:17
RSS'25 | ConRFT使用强化学习微调VLA实现96.3%成功率和超强鲁棒性!
48:54
清华最新开源MARS!第一个基于NeRF的自动驾驶开源模拟器!
59:12
CVPR'25+RSS'25 | G3Flow:生成式操作表征,2D基座模型赋能3D策略 | CordViP:新颖的灵巧操纵学习框架
01:14:40
ECCV'24 oral | DVLO:首个基于深度聚类的多模态融合里程计网络
38:51
TRO重磅开源 | 开放混杂场景机器人抓放:成功率、效率、泛化三重进化
01:01:10
任意手以任意方式抓取任意物体!从手物交互生成到机器人灵巧操作
57:18
CVPR'25 | SPR:与场景无关的相机位姿估计
59:31
全球领先的具身智能机器人科研平台:Franka机器人以及多模态具身智操作策略和数据采集分享
47:57
上海人工智能实验室开源 | 打通自动驾驶最后一公里!Nexus突破边缘场景生成
59:27
西湖大学MiLab具身专场 | 全栈VLA技术分享
53:11
上海AI Lab最新 | 迈向可泛化和可规模化的空间具身智能
51:29
不占显存,还能提速!推理时间减少70%!这个「压缩神器」助力前馈3DGS实现超高视点输入!
47:06
CVPR'25 Highlight!清华开源一键式视频扩散模型,视频到3D,一步到位!
37:11
重磅分享!用于机器人操纵任务的视觉基础模型
41:37
CVPR'25开源 | 无需编码,全新的depth利用方式!
58:09
首次把3D生成大模型推到了1536³分辨率,Sparc3D:生成mesh直接打印!
33:08
告别双系统,清华博世带来完全开源性能SOTA的纯血VLA!
30:30
CVPR 2025 | Qwen赋能AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
29:51
博世 X 清华 | CVPR2025端到端第二名DiffVLA:成功实现通用机器人控制框架π0的VLA范式在动态交通场景中的创新应用
44:36
ICCV 2025 | TesserAct: 首个通用4D世界模型
01:03:00
ICCV'25 Hi3DGen开源 | 法线为桥:为高清三维几何生成另辟蹊径
49:46
RSS 2025 Best Student Paper Finalist | 视-触/力觉融合的模仿学习框架
01:17:44
首个泛化高斯溅射语义SLAM框架!GS4:十倍效率三维建图
56:48
ICCV'25开源 | 新一代自动驾驶标配视觉语言大模型?DriveBench全面揭示视觉语言大模型在退化图像下的「幻觉」问题!
51:13
清华最新开源!OneTwoVLA:统一视觉语言动作模型,让机器人通用性更强
51:42
北大ICLR'25&ICCV'25| 铰链物体真实物理机制仿真突破!基座模型赋能泛化策略!
52:03
香港中文大学 | ReSim:迈向真实驾驶世界仿真的世界模型
01:02:16
ICCV'25开源 | 从Transformer到Mamba,轨迹预测迎来架构变革!
49:12
CVPR'25 | 浙大提出三维生成先验助力手持物体重建新方案
40:06
ICRA'25 最佳论文 | 2025年了视觉SLAM怎么还没有被解决?
44:37
CVPR 2025 开源 | 标签高效下三维目标感知最新进展!
55:49
CVPR'25 最佳论文一作亲解 | VGGT:纯前馈Transformer架构,快速3D重建新范式!
01:24:18
ICRA 2025 | Gaussian-LIC:首个LiDAR-IMU-Camera融合的3DGS-SLAM系统
57:30
RA-L'25开源 | 北理工&清华新作ActiveSplat:主动高保真场景重建+3D高斯泼溅新突破!
46:07
上海期智&清华!BEV-VAE:首个自监督BEV视角的VAE,从图像到场景生成跃迁~
01:15:47
华人团队PyVision爆改多模态模型,Claude视觉推理能力飙升31%
55:33
清华RAL'25开源 | VR-Robo:通过3DGS实现机器人视觉运动与导航!
54:09
CVPR'25 Highlight|DepthCrafter: 开放世界长序列视频的一致性深度估计
27:01
CVPR 2025 Highlight | 北大ConsisID & OpenS2V - 频域感知的主体一致性视频生成
55:12
ACM MM'25 | 小鹏最新:利用导航指令模仿人类驾驶员的超视距自动驾驶
49:00
上海AL Lab | NavDP:跨场景及本体的通用端到端导航方法
53:15
NUS邵林团队最新VLA‑OS | 揭秘机器人VLA模型的第一性原理!
55:07
IROS'25 | 基于非成对视觉-动作数据的时空表征融合,助力灵巧操作学习
44:16
CVPR冠军方案BridgeVLA | 真机性能提升32%,3D VLA新范式!
47:50
ICCV'25 Highlight 港大开源 | GameFactory:迈向交互式生成视频的更高级智能
49:53
CVPRW'25 MEIS Best Paper | LangCoop:首个自然语言V2X协作框架,开创自动驾驶新范式!
45:53
探索3D生成的上限 | 南洋理工大学联合数美万物发布Ultra3D
39:11
CoRL 2025|零遥操作!AirExo-2助力规模化机器人模仿学习
01:01:46
IROS 2025 | 灵巧操作新范式:视触融合 × 基于未来力引导的操作策略
47:02
ICCV'25开源 | TurboReg:超高速高精度点云配准方法,让SLAM配准快200多倍!
31:15
RSS'25 | CMU开源基于人类操作数据预训练的跨具身学习框架!
01:04:11
客服
顶部
赛事库 课堂 2021拜年纪