【RLChina论文研讨会】第78期 袁昊琦 用预训练目标模型辅助强化学习中的样本高效利用

819
0
2024-03-06 17:58:44
正在缓冲...
14
7
24
9
自动连播
19.8万播放
简介
【RLChina论文研讨会】第92期 张万鹏 通过因果表示解决强化学习中的非平稳性问题
46:08
【RLChina论文研讨会】第92期 鲁云龙 麻将AI比赛:拓展AI在复杂现实世界游戏中的应用
28:51
【RLChina论文研讨会】第93期 张宗萌 Trustworthy Alignment of Retrieval-Augmented Large Langua
20:20
【RLChina论文研讨会】第93期 耿子介 Reinforcement Learning with Tree Search for Fast Macro Pl
18:45
【RLChina论文研讨会】第93期 王治海 基于分层自适应多任务强化学习框架的乘法电路自动设计
22:06
【RLChina论文研讨会】第94期 吕怡琴 Robust Fast Adaptation from Adversarially Explicit Task D
49:02
【RLChina论文研讨会】第95期 庄子文 人型机器人的高动态运动-Humanoid Parkour Learning
35:44
【RLChina论文研讨会】第95期 李鹏翼 Value-Evolutionary-Based Reinforcement Learning
36:40
【RLChina论文研讨会】第96期 陈逸彬 SheetAgent:基于大型语言模型的通用型表格推理与操作智能体
19:49
【RLChina论文研讨会】第96期 李鹏翼 EvoRainbow:融合演化强化学习中各类提升的策略搜索
53:24
【RLChina论文研讨会】第96期 刘金毅 大语言模型驱动的单细胞测序数据分析自主智能体
21:26
【RLChina论文研讨会】第97期 陈华玉 Score Regularized Policy Optimization through Diffusion B
28:56
【RLChina论文研讨会】第97期 胡昊 基于贝叶斯原则的离线到在线强化学习
29:05
【RLChina论文研讨会】第90期 李英儒 Q* meets Thompson Sampling:Scaling up Exploration via Hyp
58:41
【RLChina论文研讨会】第91期 刘润泽 PEARL:机器人操作的零样本跨任务偏好对齐和鲁棒奖励学习
32:35
【RLChina论文研讨会】第90期 全国瑞 Learning Constraints from Offline Demonstrations via Sup
24:06
【RLChina论文研讨会】第90期 徐圣 Robust Inverse Constrained Reinforcement Learning under Mo
37:51
【RLChina论文研讨会】第89期 邱文杰 Debiased Offline Representation Learning for Fast Online
40:02
【RLChina论文研讨会】第91期 史紫荆 在阿瓦隆桌游中评估LLM agent在临时团队中的协作能力
27:24
【RLChina论文研讨会】第88期 胡开哲 Affordance Generalization Beyond Categories via Semantic
17:20
【RLChina论文研讨会】第89期 贾乘兴 Offline Transition Modeling via Contrastive Energy Learni
21:23
【RLChina论文研讨会】第88期 徐国玮 基于“神经元冬眠”效应的高样本效率视觉强化学习算法
23:47
【RLChina论文研讨会】第88期 张谷 Learning Dexterous Robot Manipulation Skills Based On 3D V
23:08
【RLChina论文研讨会】第87期 盛俊杰 语言智能体可以作为PPO的替代吗?一个在OpenAI Gym上的初步研究
32:11
【RLChina论文研讨会】第87期 林越 多智能体强化学习中的信息设计
39:26
【RLChina论文研讨会】第86期 黄浩栩 基于基础大模型的通用机器人操作框架
18:36
【RLChina论文研讨会】第86期 毛怡欢 风格化强化学习:从异质数据集中抽取多样性、高质量的行为
22:06
【RLChina论文研讨会】第86期 王圣杰 EfficientZero V2:一种通用且采样高效的基于模型强化学习方法
20:56
【RLChina论文研讨会】第85期 刘子儒 同时优化及时反馈与长期留存的序列推荐框架
21:52
【RLChina论文研讨会】第85期 朱毅文 vMFER:Von Mises-Fisher Experience Resampling Based on Unc
17:53
【RLChina论文研讨会】第85期 葛振兴 Safe and Robust Subgame Exploitation in Imperfect Informa
36:50
【RLChina论文研讨会】第84期 刘明桓 Visual Whole-Body Control for Legged Loco-Manipulation
23:31
【RLChina论文研讨会】第84期 王俊 CyberDemo Augmenting Simulated Human Demonstration for Rea
15:33
【RLChina论文研讨会】第83期 曾勇程 Token-level Direct Preference Optimization
40:22
【RLChina论文研讨会】第83期 叶语霄 LLM-based Text2SQL:new SOTA and comprehensive benchmarkin
32:18
【RLChina论文研讨会】第82期 梁志烜 SkillDiffuser: Interpretable Hierarchical Planning via
35:17
【RLChina论文研讨会】第81期 曲云 一种基于真实王者荣耀游戏的离线强化学习数据集
15:08
【RLChina论文研讨会】第81期 曲云 基于反事实保守Q学习的离线多智能体强化学习算法
20:49
【RLChina论文研讨会】第80期 庞竟成 不懂就问:主动询问有助于提升大语言模型回答质量
31:01
【RLChina论文研讨会】第80期 叶鸣轩 强化学习中基于状态序列频域预测的表征学习方法
25:36
【RLChina论文研讨会】第80期 冯加恒 离线到在线强化学习中的稳定化无约束微调
18:14
【RLChina论文研讨会】第79期 金宣法 学会策略性发言:以《一夜终极狼人杀》为例
33:39
【RLChina论文研讨会】第79期 娄行舟 自由形式自然语言约束下的基于预训练语言模型的安全强化学习算法
31:34
【RLChina论文研讨会】第78期 胡紫灿 多智能体强化学习中基于注意力的对比角色表征
24:47
【RLChina论文研讨会】第78期 陈炤桦 重复二价拍卖中的动态预算节流方法
17:37
【RLChina论文研讨会】第78期 袁昊琦 用预训练目标模型辅助强化学习中的样本高效利用
36:32
【RLChina论文研讨会】第77期 王鹏远 Language Model Self-improvement by Reinforcement Learnin
19:01
【RLChina论文研讨会】第77期 吴佳龙 世界模型的内生任务均衡
39:34
【RLChina论文研讨会】第77期 张蒲石 Distributional Pareto-Optimal Multi-Objective Reinforcem
37:47
【RLChina论文研讨会】第76期 董恒 基于双曲表征的多细胞机器人设计
27:22
【RLChina论文研讨会】第76期 董炜隽 观测模仿学习中的自动折扣因子调节
26:57
【RLChina论文研讨会】第76期 胡英东 揭秘GPT-4V在机器人视觉-语言规划中的强大力量
29:22
【RLChina论文研讨会】第75期 辜鹏杰 Offline RL with discrete proxy representations for genera
22:42
【RLChina论文研讨会】第75期 秦默雷 EarnHFT:Efficient hierarchical reinforcement learning for
24:49
【RLChina论文研讨会】第75期 刘殊畅 KuaiSim:一个更全面的推荐系统用户模拟器
23:14
【RLChina论文研讨会】第74期 凌逸飏 GenSim:Generating Robotic Simulation Tasks via Large Lang
22:34
【RLChina论文研讨会】第74期 程旭欣 Extreme Parkour with Legged Robots
16:59
【RLChina论文研讨会】第73期 史紫荆 文字冒险游戏中的道德决策制定
19:30
【RLChina论文研讨会】第73期 洪逸宁 构建具身智能的3D基础大模型
43:50
【RLChina论文研讨会】第73期 马晓健 开放世界下的通才具身智能体
41:30
【RLChina论文研讨会】第72期 马纬彧 大模型玩转星际 新的基准和总结链的尝试
35:52
【RLChina论文研讨会】第72期 张知临 强化学习在阿里妈妈广告场景的大规模落地实践
40:33
【RLChina论文研讨会】第72期 米祈睿 TaxAI多智能体强化学习的动态经济模拟器和基准
26:21
【RLChina论文研讨会】第71期 李立和 Learning to Coordinate with Anyone
20:38
【RLChina论文研讨会】第71期 丁枢桐 Reduced Policy Optimization for Continuous Control with
36:24
【RLChina论文研讨会】第82期 胡梦康 Tree-Planner:Efficient Close-loop Task Planning with
34:11
【RLChina论文研讨会】第71期 胡修远 基于多GPT智能体强化学习的全新药物分子设计
21:20
【RLChina论文研讨会】第70期 朱文轩 基于观察数据的深度因果强化学习
27:44
【RLChina论文研讨会】第70期 吴梓帆 优化基于模型多智能体强化学习中的多步局部模型交互
32:20
【RLChina论文研讨会】第69期 黄红蓝 Active Client Selection for Clustered Federated Learning
37:58
【RLChina论文研讨会】第69期 吕怡琴 A Simple Yet Effective Strategy to Robustify the Meta Lea
25:43
【RLChina论文研讨会】第68期 徐康 基于价值驱动数据筛选的跨域策略自适应
33:40
【RLChina论文研讨会】第68期 阳明宇 分层多智能体技能发现
32:02
【RLChina论文研讨会】第68期 赵有朋 策略空间中的多智能体一阶约束优化方法
21:46
【RLChina论文研讨会】第67期 冯熙栋 类AlphaZero的树搜索可以引导语言模型解码与训练
45:13
【RLChina论文研讨会】第67期 闫雪 零样本人工智能与人类协作的高效端到端训练方法
27:04
【RLChina论文研讨会】第67期 张钰荻 强化学习中可解释的奖励重新分配:一种因果角度方法
27:18
【RLChina论文研讨会】第66期 周伯涵 通过离线预训练模型从视觉观测中学习策略
51:59
【RLChina论文研讨会】第66期 陈昱蓉 重复二价拍卖下有预算约束的协同竞价在线算法
31:39
【RLChina论文研讨会】第65期 许天 Provably Efficient Adversarial Imitation Learning with Unk
50:56
【RLChina论文研讨会】第65期 牟牧云 Model Predictive Complex System Control
25:05
【RLChina论文研讨会】第63期 李鹏翼 基于表征不对称性与协同进化的多智能体强化学习
53:39
【RLChina论文研讨会】第63期 赵一诺 机械臂控制中的视觉强化学习策略泛化研究近况
51:36
【RLChina论文研讨会】第62期 冯悦 A Large Language Model Enhanced Conversational Recommender
27:14
【RLChina论文研讨会】第62期 林浩鑫 Model-based Reinforcement Learning with Multi-step Plan
27:04
【RLChina论文研讨会】第62期 郑龙韬 语言智能体的机遇
17:28
【RLChina论文研讨会】第61期 何浩然 Diffusion:Model is an Effective Planner and Data Synthesi
39:33
【RLChina论文研讨会】第61期 竺正邦 MADiff:Offline Multi-agent Learning with Diffusion Models
28:38
【RLChina论文研讨会】第60期 杨梦月 从混合数据中分离出鲁棒的因果表征
28:10
【RLChina论文研讨会】第60期 张策尧 使用大型语言模型构建主动协作人工智能
33:39
【RLChina论文研讨会】第26期 万里鹏 基于贪婪值函数表征的多智能体最优协作方法
34:26
【RLChina论文研讨会】第59期 王翰竟 用于大型强化学习模型的以gpu为中心的经验回放系统
32:53
【RLChina论文研讨会】第59期 袁正 基于排序的和人类偏好对齐的语言模型优化方法RRHF
26:15
【RLChina论文研讨会】第26期 王丽 个体奖励辅助的多智能体强化学习方法
33:37
【RLChina论文研讨会】第26期 杨睿 观测干扰任务中基于奖励序列特征函数的表征学习方法
29:32
【RLChina论文研讨会】第58期 王锡淮 Order Matters:Agent-by-agent Policy Optimization
27:13
【RLChina论文研讨会】第58期 Richard Willis Resolving Social Dilemmas
18:17
【RLChina论文研讨会】第58期 刘浩新 社交网络上的分布式机制设计
16:23
【RLChina论文研讨会】第57期 罗俊仁 博弈决策视角下的“外交风云”多人博弈AI实证分析
27:07
【RLChina论文研讨会】第57期 杜林康 面向离线强化学习的模型训练数据审计方法
33:11
【RLChina论文研讨会】第56期 李逸尘 Policy Regularization with Dataset Constraint for Offline
18:14
【RLChina论文研讨会】第56期 施余峰 Multi-Agent Reinforcement Learning with Safety Layer for
17:57
【RLChina论文研讨会】第56期 宋昊霖 MA2CL:Masked Attentive Contrastive Learning for Multi-Age
19:28
【RLChina论文研讨会】第55期 冯熙栋 ChessGPT: Bridging Policy Learning and Language Modeling
34:02
【RLChina论文研讨会】第55期 刘旭辉 How To Guide Your Learner Imitation Learning with Active
30:48
【RLChina论文研讨会】第55期 李阳 Cooperative Open-ended Learning Framework for Zero-shot Co
24:05
【RLChina论文研讨会】第55期 何强 Eigensubspace of Temporal-Difference Dynamics and How It I
27:43
【RLChina论文研讨会】第54期 林涛 基于均值的学习算法在首价拍卖中的收敛性
22:04
【RLChina论文研讨会】第54期 刘顺宇 基于对比身份感知的多智能体价值分解研究
36:11
【RLChina论文研讨会】第53期 张子谦 Fast Teammate Adaptation in the Presence of Sudden Policy
38:57
【RLChina论文研讨会】第53期 曾兰婷 基于强化学习控制的低碳电力系统安全性研究
34:24
【RLChina论文研讨会】第52期 吴吉洲 多智能体强化学习自动课程学习
28:32
【RLChina论文研讨会】第52期 郝晓田 多智能体强化学习中的置换不变性和置换同变性
19:03
【RLChina论文研讨会】第52期 袁逸夫 EUCLID:基于多项选择世界模型的高效无监督强化学习
31:43
【RLChina论文研讨会】第52期 李鹏翼 ERL-Re^2:基于共享状态表征与独立策略表征的演化强化学习新范式
49:42
【RLChina论文研讨会】第51期 杨以钦 离线强化学习中的无监督数据共享
24:30
【RLChina论文研讨会】第51期 王鉴浩 同分布在线快速自适应的离线元强化学习
17:00
【RLChina论文研讨会】第51期 吴澄杰 在子博弈优化中实现安全的对手利用
20:52
【RLChina论文研讨会】第50期 杨如帅 基于行为对比的强化学习技能挖掘方法
18:58
【RLChina论文研讨会】第50期 陈烽 基于自监督信息聚合的高效多智能体通信
28:12
【RLChina论文研讨会】第50期 邢东 多智能体即兴协作中的类型混淆
21:17
【RLChina论文研讨会】第49期 刘梓辰 Efficient Offline Policy Optimization with a Learned Mode
26:00
【RLChina论文研讨会】第49期 陈思为 DaxBench:Benchmarking Deformable Object Manipulation with
30:12
【RLChina论文研讨会】第48期 刘宗凯 零和博弈中的最终策略收敛
11:17
【RLChina论文研讨会】第48期 林谦 面向实时预算约束的离线安全强化学习
25:01
【RLChina论文研讨会】第47期 张策尧 深度强化学习赋能光子晶体微腔激光器的自动反向设计和优化
30:26
【RLChina论文研讨会】第47期 罗一成 将最优传输用在离线模仿学习
39:54
【RLChina论文研讨会】第46期 宋研 强化学习中的系统设计
40:25
【RLChina论文研讨会】第46期 闫雪 Learning to Identify Top Elo Ratings:A Dueling Bandits App
16:55
【RLChina论文研讨会】第45期 穆尧 AdaptDiffuser:Diffusion Models as Adaptive Self-evolving
43:50
【RLChina论文研讨会】第45期 赖行 Sim-to-Real Transfer for Quadrupedal Locomotion
28:31
【RLChina论文研讨会】第44期 梁豪 用于风险敏感控制的分布强化学习的遗憾保证
01:00:03
【RLChina论文研讨会】第44期 李子牛 一种基于模仿学习的迁移学习理论
45:19
【RLChina论文研讨会】第43期 庄梓峰 行为近端策略优化
26:38
【RLChina论文研讨会】第43期 王治海 面向资源受限强化学习的高效探索
24:14
【RLChina论文研讨会】第43期 阳明宇 多智能体强化学习中的动态子任务分配
14:11
【RLChina论文研讨会】第42期 阳方杰 有效的深度强化学习需要调节统计过拟合
20:55
【RLChina论文研讨会】第42期 徐浩添 基于群体强化学习的质量相似多样性
27:30
【RLChina论文研讨会】第41期 杨林鑫 混合整数线性优化问题上基于图神经网络的“预测-搜索”算法框架
34:08
【RLChina论文研讨会】第41期 曲庆渝 基于模仿学习与分支定界的航天器多目标观测任务序列规划
19:00
【RLChina论文研讨会】第41期 王治海 基于分层序列模型的割平面选择方法
29:03
【RLChina论文研讨会】第40期 段志健 纳什均衡近似器是否可学习
24:50
【RLChina论文研讨会】第40期 史紫荆 文字冒险游戏中的价值对齐
25:31
【RLChina论文研讨会】第39期 潘学海 MATE:Benchmarking Multi-Agent Reinforcement Learning in
43:06
【RLChina论文研讨会】第39期 吴铭东 为无明确目标的物体重排学习目标梯度场
36:42
【RLChina论文研讨会】第39期 李宁远 一般和随机博弈中马尔科夫精炼均衡的计算复杂性
26:09
【RLChina论文研讨会】第38期 张福翔 Discovering Generalizable Multi-agent Coordination Skills
42:02
【RLChina论文研讨会】第38期 廖沩健 Policy-Independent Behavioral Metric-Based Representation
24:05
【RLChina论文研讨会】第37期 梁贺斌 基于深度强化学习求解MinMax多旅行商问题的序列切割算法
16:43
【RLChina论文研讨会】第37期 戴子彭 基于社会价值取向的无人车交互决策方法
36:58
【RLChina论文研讨会】第37期 高崇凯 基于迭代交互式建模的双臂机器人塑料袋打结算法
17:12
【RLChina论文研讨会】第36期 杨以钦 基于流模型的离线分层强化学习
15:33
【RLChina论文研讨会】第36期 陈晰 基于潜变量优势加权的离线强化学习优化算法
27:52
【RLChina论文研讨会】第36期 张进 CUP:基于评论家的策略迁移
19:19
【RLChina论文研讨会】第35期 薛轲 多智能体动态算法配置
37:49
【RLChina论文研讨会】第35期 袁雷 基于演化生成及辅助对抗攻击训练的鲁棒性多智能体强化学习
50:16
【RLChina论文研讨会】第34期 马一宁 解决车辆路径问题的深度强化学习方法:近期发展及挑战
34:13
【RLChina论文研讨会】第34期 尤扬 POMDP与Dec-POMDP问题的精确与近似解法
25:16
【RLChina论文研讨会】第34期 李姝昕 基于预训练的策略求解大规模追击博弈
27:06
【RLChina论文研讨会】第33期 万旭 AdapSafe面向低碳电力系统频率控制的自适应与安全保证深度强化学习算法
33:45
【RLChina论文研讨会】第33期 邱伟 Off-Beat Multi-Agent Reinforcement Learning
29:09
【RLChina论文研讨会】第32期 任杰 TorchOpt 高效可微优化库 (TorchOpt An Efficient Library for Differ
25:02
【RLChina论文研讨会】第32期 刘博 一种元强化学习中梯度偏差的理论理解
33:04
【RLChina论文研讨会】第31期 李健雄 Distance-sensitive offline reinforcement learning
27:40
【RLChina论文研讨会】第31期 牛浩懿 何时相信你的仿真器:考虑动力学偏差的混合离线在线强化学习
26:08
【RLChina论文研讨会】第31期 姜力 一种模仿结合策略引导的离线强化学习算法
42:47
【RLChina 论文研讨会】第30期 吕加飞 在信任之前双重检查状态:信任感知的基于模型的双向离线生成
33:13
【RLChina论文研讨会】第30期 徐志伟 基于模型的合作多智能体强化学习方法
17:44
【RLChina 论文研讨会】第29期 白丰硕 元奖励网络:一种隐式微分奖励学习的基于偏好的强化学习方法
29:23
【RLChina 论文研讨会】第29期 郭亨铨 强约束条件下在线凸优化算法研究
18:59
【RLChina 论文研讨会】第29期 蒋铮尧 隐动作空间内的高效规划
24:17
【RLChina 论文研讨会】第28期 吴梓帆 规划模型预测:基于策略与模型角色反转的有模型强化学习算法
22:43
【RLChina 论文研讨会】第28期 刘宗凯 基于策略多样性的多智能体强化学习
22:47
【RLCHina 论文研讨会】第27期 刘世旋 增广POMDP:一种结合观测型数据和干预型数据的因果强化学习方法
21:03
【RLChina 论文研讨会】第27期 王琦 基于模型的元强化学习:一种图结构代理模型和快速迁移的策略学习
26:44
【RLChina论文研讨会】第25期 温睦宁 MARL is a Sequence Modeling Problem
31:19
【RLChina论文研讨会】第25期 顾尚定 Safe policy optimization for MARL
22:30
【RLChina论文研讨会】第25期 马成栋 Fully Decentralized M-based Policy Optimization for Netw—
34:57
【RLChina论文研讨会】第24期 王远非 Multi-Agent Communication and Cooperation with Theory of
26:47
【RLChina论文研讨会】第24期 袁昊琦 离线元强化学习中基于对比学习的稳定任务表示
33:21
【RLChina论文研讨会】第23期 刘旭辉 正则化的影响:从”教学“角度出发
24:52
【RLChina论文研讨会】第23期 李子牛 New Theore. Understand. of Adversarial Imitation Learning
48:46
【RLChina论文研讨会】第22期 尤恒 基于状态和动作对应关系的跨域自适应迁移强化学习
19:16
【RLChina论文研讨会】第22期 辜鹏杰 基于伪度量动作表征的离线强化学习
27:35
【RLChina论文研讨会】第22期 熊浩宇 Robot Learning from Human Videos
23:09
【RLChina论文研讨会】第21期 胡昊 On the Role of Discount Factor in Offline RL
26:13
【RLChina论文研讨会】第21期 马骁腾 Offline RL with Value-based Episodic Memory
15:24
【RLChina论文研讨会】第21期 王同翰 Context-Aware Sparse Deep Coordination Graphs
24:03
【RLChina论文研讨会】第20期 张杨 基于离线强化学习框架的在线优惠券分配策略研究
27:53
【RLChina论文研讨会】第20期 李鹏翼 基于渐进式互信息协作的多智能体强化学习
48:10
【RLChina论文研讨会】第19期 樊小峰 When Reinforcement Learning meets Federated Learning with
51:46
【RLChina论文研讨会】第19期 潘玲 Softmax Regularized Deep Multi-Agent Q-Learning
25:18
【RLChina论文研讨会】第19期 袁雷 Multi-Agent Incentive Communication via Decentralized Team
31:24
【RLChina论文研讨会】第18期 杨正宇 面向应用的强化学习:使用策略集成提高泛化和样本效率
33:10
【RLChina论文研讨会】第18期 陈竞潇 王者荣耀中的人工智能方法
34:55
【RLChina论文研讨会】第17期 许云秋 Perceiving the World Question-guided RL for Text-b Games
20:38
【RLChina论文研讨会】第17期 陈嘉欣 The Neural MMO Platform for Massively Multiagent Research
40:43
【RLChina论文研讨会】第16期 阮景晴 GCS Graph-based Coordination Strategy for Multi-Agent RL
21:38
【RLChina论文研讨会】第16期 杨以钦 A Reliable Off-line Learning Method
25:10
【RLChina论文研讨会】第16期 邱文杰 Programmatic Reinforcement Learning without Oracles
27:16
【RLChina论文研讨会】第15期 陈睿卿 Multi-Agent Trust Region Policy Optimization Algorithm
18:59
【RLChina论文研讨会】第15期 温睦宁 Settling the Variance of Multi-Agent Policy Gradients
27:41
【RLChina论文研讨会】第15期 刘相宇 Unifying Response Div. for Open-Ended L in Zero-Sum Games
25:55
【RLChina论文研讨会】第14期 施伟 Hierarchical Reinforcement Learning With Timed Subgoals
19:55
【RLChina论文研讨会】第14期 张龙飞 Data-Augmented Offline Reinforcement Learning
32:53
【RLChina论文研讨会】第14期 王戎骁 When Should Agents Explore
26:21
【RLChina论文研讨会】第13期 郑学敬 Lifelong RL with Temporal Logic Formulas and Reward Machi
21:19
【RLChina论文研讨会】第13期 李斯源 Active Hierarchical Exploration with Stable Subgoal Rep-L
16:12
【RLChina论文研讨会】第13期 吴梓帆 Coordinated Proximal Policy Optimization
12:56
【RLChina论文研讨会】第12期 Juliusz Ziomek Settling the Communication Complexity for DORL
30:48
【RLChina论文研讨会】第12期 窦泽皓 Understanding Value Decomposition Algorithms in DC MARL
29:14
【RLChina论文研讨会】第11期 栾绍童 Gaussian Process based Deep Dyna-Q approach for Dialogue
20:13
【RLChina论文研讨会】第11期 刘旭辉 Regret Minimization Experience Replay in Off-Policy RL
19:48
【RLChina论文研讨会】第11期 王治海 Sample-Efficient RL via Conservative M-b Actor-Critic
22:18
【RLChina论文研讨会】第10期 郭家贤 A Rela Inter Approach for Un-super Dyna General in M-b RL
34:42
【RLChina论文研讨会】第10期 许云秋 Knowledge Graph in Solving Text-based Games
16:22
【RLChina论文研讨会】第10期 杨瑞 Rethink Goal-conditioned Supervised L &Its Conne to Off RL
28:27
【RLChina论文研讨会】第9期 黄柏贺 Sample Complexity of Reinforcement Learning with Non-linea
16:52
【RLChina论文研讨会】第9期 胡家琛 Near-Optimal Representation Learning for Linear Bandits
22:32
【RLChina论文研讨会】第9期 钟方威 Towards Distraction-Robust Active Visual Tracking
14:40
【RLChina论文研讨会】第8期 罗凡明 Adapt to Environment Sudden Changes by Learning a Context
18:28
【RLChina论文研讨会】第8期 蔡欣强 Imitation Learning from Pixel-Level Demonstrations by Hash
25:48
【RLChina论文研讨会】第8期 闫雪 Estimating Alpha-Rank from A Few Entries with Low Rank Matr
14:25
【RLChina论文研讨会】第7期 陈雄辉 Offline Model-based Adaptable Policy Learning
20:08
【RLChina论文研讨会】第7期 倪飞 A Multi-Graph Attributed Reinforcement Learning based Optim
21:48
【RLChina论文研讨会】第7期 马亿 A Hierarchical Reinforcement Learning Based Optimization Fr
22:11
【RLChina论文研讨会】第6期 李承昊 Celebrating Diversity in Shared Multi-Agent Reinforcement
22:09
【RLChina论文研讨会】第6期 李文哲 Offline RL with Reverse Model-based Imagination
19:47
【RLChina论文研讨会】第6期 汤宏垚 What About Inputting Policy in Value Function
24:44
【RLChina论文研讨会】第5期 于钊 DREAM Deep Regret minimization with Advantage baselines and
28:21
【RLChina论文研讨会】第5期 沈之浩 DeepAPP_ A Deep Reinforcement Learning Framework for Mobil
18:18
【RLChina论文研讨会】第5期 王鉴浩 Towards Understanding Cooperative Multi-Agent Q-Learning w
25:25
【RLChina 论文研讨会】第4期 王润东 Deep Stock Trading- A Hierarchical RL Framework for Portf
25:48
【RLChina 论文研讨会】第4期 郑璐璐 Episodic MARL with Curiosity-driven Exploration
18:22
【RLChina论文研讨会】第4期 王小强 Ordering-Based Causal Discovery with RL
19:16
【RLChina 论文研讨会】第3期 邱伟 Towards mental time travel a hierarchical memory
21:24
【RLChina 论文研讨会】第3期 王剑虹 Multi-Agent Reinforcement Learning for Active
54:04
【RLChina 论文研讨会】第3期 赖行 On Effective Scheduling of Model-based
12:30
【RLChina 论文研讨会】第2期 刘明桓 Curriculum Offline Imitation Learning
29:38
【RLChina 论文研讨会】第2期 白辰甲 Dynamic Bottleneck for Robust Self-Supervised Exploration
24:33
【RLChina 论文研讨会】第2期 李锡涵 Grassland: A Rapid Algebraic Modeling System for Million
23:52
【RLChina 论文研讨会】第1期
01:17:22
客服
顶部
赛事库 课堂 2021拜年纪