【RLChina论文研讨会】第92期张万鹏通过因果表示解决强化学习中的非平稳性问题

46:08

【RLChina论文研讨会】第92期鲁云龙麻将AI比赛：拓展AI在复杂现实世界游戏中的应用

28:51

【RLChina论文研讨会】第93期张宗萌 Trustworthy Alignment of Retrieval-Augmented Large Langua

20:20

【RLChina论文研讨会】第93期耿子介 Reinforcement Learning with Tree Search for Fast Macro Pl

18:45

【RLChina论文研讨会】第93期王治海基于分层自适应多任务强化学习框架的乘法电路自动设计

22:06

【RLChina论文研讨会】第94期吕怡琴 Robust Fast Adaptation from Adversarially Explicit Task D

49:02

【RLChina论文研讨会】第95期庄子文人型机器人的高动态运动-Humanoid Parkour Learning

35:44

【RLChina论文研讨会】第95期李鹏翼 Value-Evolutionary-Based Reinforcement Learning

36:40

【RLChina论文研讨会】第96期陈逸彬 SheetAgent：基于大型语言模型的通用型表格推理与操作智能体

19:49

【RLChina论文研讨会】第96期李鹏翼 EvoRainbow：融合演化强化学习中各类提升的策略搜索

53:24

【RLChina论文研讨会】第96期刘金毅大语言模型驱动的单细胞测序数据分析自主智能体

21:26

【RLChina论文研讨会】第97期陈华玉 Score Regularized Policy Optimization through Diffusion B

28:56

【RLChina论文研讨会】第97期胡昊基于贝叶斯原则的离线到在线强化学习

29:05

【RLChina论文研讨会】第90期李英儒 Q* meets Thompson Sampling：Scaling up Exploration via Hyp

58:41

【RLChina论文研讨会】第91期刘润泽 PEARL：机器人操作的零样本跨任务偏好对齐和鲁棒奖励学习

32:35

【RLChina论文研讨会】第90期全国瑞 Learning Constraints from Offline Demonstrations via Sup

24:06

【RLChina论文研讨会】第90期徐圣 Robust Inverse Constrained Reinforcement Learning under Mo

37:51

【RLChina论文研讨会】第89期邱文杰 Debiased Offline Representation Learning for Fast Online

40:02

【RLChina论文研讨会】第91期史紫荆在阿瓦隆桌游中评估LLM agent在临时团队中的协作能力

27:24

【RLChina论文研讨会】第88期胡开哲 Affordance Generalization Beyond Categories via Semantic

17:20

【RLChina论文研讨会】第89期贾乘兴 Offline Transition Modeling via Contrastive Energy Learni

21:23

【RLChina论文研讨会】第88期徐国玮基于“神经元冬眠”效应的高样本效率视觉强化学习算法

23:47

【RLChina论文研讨会】第88期张谷 Learning Dexterous Robot Manipulation Skills Based On 3D V

23:08

【RLChina论文研讨会】第87期盛俊杰语言智能体可以作为PPO的替代吗？一个在OpenAI Gym上的初步研究

32:11

【RLChina论文研讨会】第87期林越多智能体强化学习中的信息设计

39:26

【RLChina论文研讨会】第86期黄浩栩基于基础大模型的通用机器人操作框架

18:36

【RLChina论文研讨会】第86期毛怡欢风格化强化学习：从异质数据集中抽取多样性、高质量的行为

22:06

【RLChina论文研讨会】第86期王圣杰 EfficientZero V2：一种通用且采样高效的基于模型强化学习方法

20:56

【RLChina论文研讨会】第85期刘子儒同时优化及时反馈与长期留存的序列推荐框架

21:52

【RLChina论文研讨会】第85期朱毅文 vMFER：Von Mises-Fisher Experience Resampling Based on Unc

17:53

【RLChina论文研讨会】第85期葛振兴 Safe and Robust Subgame Exploitation in Imperfect Informa

36:50

【RLChina论文研讨会】第84期刘明桓 Visual Whole-Body Control for Legged Loco-Manipulation

23:31

【RLChina论文研讨会】第84期王俊 CyberDemo Augmenting Simulated Human Demonstration for Rea

15:33

【RLChina论文研讨会】第83期曾勇程 Token-level Direct Preference Optimization

40:22

【RLChina论文研讨会】第83期叶语霄 LLM-based Text2SQL：new SOTA and comprehensive benchmarkin

32:18

【RLChina论文研讨会】第82期梁志烜 SkillDiffuser: Interpretable Hierarchical Planning via

35:17

【RLChina论文研讨会】第81期曲云一种基于真实王者荣耀游戏的离线强化学习数据集

15:08

【RLChina论文研讨会】第81期曲云基于反事实保守Q学习的离线多智能体强化学习算法

20:49

【RLChina论文研讨会】第80期庞竟成不懂就问：主动询问有助于提升大语言模型回答质量

31:01

【RLChina论文研讨会】第80期叶鸣轩强化学习中基于状态序列频域预测的表征学习方法

25:36

【RLChina论文研讨会】第80期冯加恒离线到在线强化学习中的稳定化无约束微调

18:14

【RLChina论文研讨会】第79期金宣法学会策略性发言：以《一夜终极狼人杀》为例

33:39

【RLChina论文研讨会】第79期娄行舟自由形式自然语言约束下的基于预训练语言模型的安全强化学习算法

31:34

【RLChina论文研讨会】第78期胡紫灿多智能体强化学习中基于注意力的对比角色表征

24:47

【RLChina论文研讨会】第78期陈炤桦重复二价拍卖中的动态预算节流方法

17:37

【RLChina论文研讨会】第78期袁昊琦用预训练目标模型辅助强化学习中的样本高效利用

36:32

【RLChina论文研讨会】第77期王鹏远 Language Model Self-improvement by Reinforcement Learnin

19:01

【RLChina论文研讨会】第77期吴佳龙世界模型的内生任务均衡

39:34

【RLChina论文研讨会】第77期张蒲石 Distributional Pareto-Optimal Multi-Objective Reinforcem

37:47

【RLChina论文研讨会】第76期董恒基于双曲表征的多细胞机器人设计

27:22

【RLChina论文研讨会】第76期董炜隽观测模仿学习中的自动折扣因子调节

26:57

【RLChina论文研讨会】第76期胡英东揭秘GPT-4V在机器人视觉-语言规划中的强大力量

29:22

【RLChina论文研讨会】第75期辜鹏杰 Offline RL with discrete proxy representations for genera

22:42

【RLChina论文研讨会】第75期秦默雷 EarnHFT：Efficient hierarchical reinforcement learning for

24:49

【RLChina论文研讨会】第75期刘殊畅 KuaiSim：一个更全面的推荐系统用户模拟器

23:14

【RLChina论文研讨会】第74期凌逸飏 GenSim：Generating Robotic Simulation Tasks via Large Lang

22:34

【RLChina论文研讨会】第74期程旭欣 Extreme Parkour with Legged Robots

16:59

【RLChina论文研讨会】第73期史紫荆文字冒险游戏中的道德决策制定

19:30

【RLChina论文研讨会】第73期洪逸宁构建具身智能的3D基础大模型

43:50

【RLChina论文研讨会】第73期马晓健开放世界下的通才具身智能体

41:30

【RLChina论文研讨会】第72期马纬彧大模型玩转星际新的基准和总结链的尝试

35:52

【RLChina论文研讨会】第72期张知临强化学习在阿里妈妈广告场景的大规模落地实践

40:33

【RLChina论文研讨会】第72期米祈睿 TaxAI多智能体强化学习的动态经济模拟器和基准

26:21

【RLChina论文研讨会】第71期李立和 Learning to Coordinate with Anyone

20:38

【RLChina论文研讨会】第71期丁枢桐 Reduced Policy Optimization for Continuous Control with

36:24

【RLChina论文研讨会】第82期胡梦康 Tree-Planner：Efficient Close-loop Task Planning with

34:11

【RLChina论文研讨会】第71期胡修远基于多GPT智能体强化学习的全新药物分子设计

21:20

【RLChina论文研讨会】第70期朱文轩基于观察数据的深度因果强化学习

27:44

【RLChina论文研讨会】第70期吴梓帆优化基于模型多智能体强化学习中的多步局部模型交互

32:20

【RLChina论文研讨会】第69期黄红蓝 Active Client Selection for Clustered Federated Learning

37:58

【RLChina论文研讨会】第69期吕怡琴 A Simple Yet Effective Strategy to Robustify the Meta Lea

25:43

【RLChina论文研讨会】第68期徐康基于价值驱动数据筛选的跨域策略自适应

33:40

【RLChina论文研讨会】第68期阳明宇分层多智能体技能发现

32:02

【RLChina论文研讨会】第68期赵有朋策略空间中的多智能体一阶约束优化方法

21:46

【RLChina论文研讨会】第67期冯熙栋类AlphaZero的树搜索可以引导语言模型解码与训练

45:13

【RLChina论文研讨会】第67期闫雪零样本人工智能与人类协作的高效端到端训练方法

27:04

【RLChina论文研讨会】第67期张钰荻强化学习中可解释的奖励重新分配：一种因果角度方法

27:18

【RLChina论文研讨会】第66期周伯涵通过离线预训练模型从视觉观测中学习策略

51:59

【RLChina论文研讨会】第66期陈昱蓉重复二价拍卖下有预算约束的协同竞价在线算法

31:39

【RLChina论文研讨会】第65期许天 Provably Efficient Adversarial Imitation Learning with Unk

50:56

【RLChina论文研讨会】第65期牟牧云 Model Predictive Complex System Control

25:05

【RLChina论文研讨会】第63期李鹏翼基于表征不对称性与协同进化的多智能体强化学习

53:39

【RLChina论文研讨会】第63期赵一诺机械臂控制中的视觉强化学习策略泛化研究近况

51:36

【RLChina论文研讨会】第62期冯悦 A Large Language Model Enhanced Conversational Recommender

27:14

【RLChina论文研讨会】第62期林浩鑫 Model-based Reinforcement Learning with Multi-step Plan

27:04

【RLChina论文研讨会】第62期郑龙韬语言智能体的机遇

17:28

【RLChina论文研讨会】第61期何浩然 Diffusion：Model is an Effective Planner and Data Synthesi

39:33

【RLChina论文研讨会】第61期竺正邦 MADiff：Offline Multi-agent Learning with Diffusion Models

28:38

【RLChina论文研讨会】第60期杨梦月从混合数据中分离出鲁棒的因果表征

28:10

【RLChina论文研讨会】第60期张策尧使用大型语言模型构建主动协作人工智能

33:39

【RLChina论文研讨会】第26期万里鹏基于贪婪值函数表征的多智能体最优协作方法

34:26

【RLChina论文研讨会】第59期王翰竟用于大型强化学习模型的以gpu为中心的经验回放系统

32:53

【RLChina论文研讨会】第59期袁正基于排序的和人类偏好对齐的语言模型优化方法RRHF

26:15

【RLChina论文研讨会】第26期王丽个体奖励辅助的多智能体强化学习方法

33:37

【RLChina论文研讨会】第26期杨睿观测干扰任务中基于奖励序列特征函数的表征学习方法

29:32

【RLChina论文研讨会】第58期王锡淮 Order Matters：Agent-by-agent Policy Optimization

27:13

【RLChina论文研讨会】第58期 Richard Willis Resolving Social Dilemmas

18:17

【RLChina论文研讨会】第58期刘浩新社交网络上的分布式机制设计

16:23

【RLChina论文研讨会】第57期罗俊仁博弈决策视角下的“外交风云”多人博弈AI实证分析

27:07

【RLChina论文研讨会】第57期杜林康面向离线强化学习的模型训练数据审计方法

33:11

【RLChina论文研讨会】第56期李逸尘 Policy Regularization with Dataset Constraint for Offline

18:14

【RLChina论文研讨会】第56期施余峰 Multi-Agent Reinforcement Learning with Safety Layer for

17:57

【RLChina论文研讨会】第56期宋昊霖 MA2CL：Masked Attentive Contrastive Learning for Multi-Age

19:28

【RLChina论文研讨会】第55期冯熙栋 ChessGPT： Bridging Policy Learning and Language Modeling

34:02

【RLChina论文研讨会】第55期刘旭辉 How To Guide Your Learner Imitation Learning with Active

30:48

【RLChina论文研讨会】第55期李阳 Cooperative Open-ended Learning Framework for Zero-shot Co

24:05

【RLChina论文研讨会】第55期何强 Eigensubspace of Temporal-Difference Dynamics and How It I

27:43

【RLChina论文研讨会】第54期林涛基于均值的学习算法在首价拍卖中的收敛性

22:04

【RLChina论文研讨会】第54期刘顺宇基于对比身份感知的多智能体价值分解研究

36:11

【RLChina论文研讨会】第53期张子谦 Fast Teammate Adaptation in the Presence of Sudden Policy

38:57

【RLChina论文研讨会】第53期曾兰婷基于强化学习控制的低碳电力系统安全性研究

34:24

【RLChina论文研讨会】第52期吴吉洲多智能体强化学习自动课程学习

28:32

【RLChina论文研讨会】第52期郝晓田多智能体强化学习中的置换不变性和置换同变性

19:03

【RLChina论文研讨会】第52期袁逸夫 EUCLID：基于多项选择世界模型的高效无监督强化学习

31:43

【RLChina论文研讨会】第52期李鹏翼 ERL-Re^2：基于共享状态表征与独立策略表征的演化强化学习新范式

49:42

【RLChina论文研讨会】第51期杨以钦离线强化学习中的无监督数据共享

24:30

【RLChina论文研讨会】第51期王鉴浩同分布在线快速自适应的离线元强化学习

17:00

【RLChina论文研讨会】第51期吴澄杰在子博弈优化中实现安全的对手利用

20:52

【RLChina论文研讨会】第50期杨如帅基于行为对比的强化学习技能挖掘方法

18:58

【RLChina论文研讨会】第50期陈烽基于自监督信息聚合的高效多智能体通信

28:12

【RLChina论文研讨会】第50期邢东多智能体即兴协作中的类型混淆

21:17

【RLChina论文研讨会】第49期刘梓辰 Efficient Offline Policy Optimization with a Learned Mode

26:00

【RLChina论文研讨会】第49期陈思为 DaxBench：Benchmarking Deformable Object Manipulation with

30:12

【RLChina论文研讨会】第48期刘宗凯零和博弈中的最终策略收敛

11:17

【RLChina论文研讨会】第48期林谦面向实时预算约束的离线安全强化学习

25:01

【RLChina论文研讨会】第47期张策尧深度强化学习赋能光子晶体微腔激光器的自动反向设计和优化

30:26

【RLChina论文研讨会】第47期罗一成将最优传输用在离线模仿学习

39:54

【RLChina论文研讨会】第46期宋研强化学习中的系统设计

40:25

【RLChina论文研讨会】第46期闫雪 Learning to Identify Top Elo Ratings：A Dueling Bandits App

16:55

【RLChina论文研讨会】第45期穆尧 AdaptDiffuser：Diffusion Models as Adaptive Self-evolving

43:50

【RLChina论文研讨会】第45期赖行 Sim-to-Real Transfer for Quadrupedal Locomotion

28:31

【RLChina论文研讨会】第44期梁豪用于风险敏感控制的分布强化学习的遗憾保证

01:00:03

【RLChina论文研讨会】第44期李子牛一种基于模仿学习的迁移学习理论

45:19

【RLChina论文研讨会】第43期庄梓峰行为近端策略优化

26:38

【RLChina论文研讨会】第43期王治海面向资源受限强化学习的高效探索

24:14

【RLChina论文研讨会】第43期阳明宇多智能体强化学习中的动态子任务分配

14:11

【RLChina论文研讨会】第42期阳方杰有效的深度强化学习需要调节统计过拟合

20:55

【RLChina论文研讨会】第42期徐浩添基于群体强化学习的质量相似多样性

27:30

【RLChina论文研讨会】第41期杨林鑫混合整数线性优化问题上基于图神经网络的“预测-搜索”算法框架

34:08

【RLChina论文研讨会】第41期曲庆渝基于模仿学习与分支定界的航天器多目标观测任务序列规划

19:00

【RLChina论文研讨会】第41期王治海基于分层序列模型的割平面选择方法

29:03

【RLChina论文研讨会】第40期段志健纳什均衡近似器是否可学习

24:50

【RLChina论文研讨会】第40期史紫荆文字冒险游戏中的价值对齐

25:31

【RLChina论文研讨会】第39期潘学海 MATE:Benchmarking Multi-Agent Reinforcement Learning in

43:06

【RLChina论文研讨会】第39期吴铭东为无明确目标的物体重排学习目标梯度场

36:42

【RLChina论文研讨会】第39期李宁远一般和随机博弈中马尔科夫精炼均衡的计算复杂性

26:09

【RLChina论文研讨会】第38期张福翔 Discovering Generalizable Multi-agent Coordination Skills

42:02

【RLChina论文研讨会】第38期廖沩健 Policy-Independent Behavioral Metric-Based Representation

24:05

【RLChina论文研讨会】第37期梁贺斌基于深度强化学习求解MinMax多旅行商问题的序列切割算法

16:43

【RLChina论文研讨会】第37期戴子彭基于社会价值取向的无人车交互决策方法

36:58

【RLChina论文研讨会】第37期高崇凯基于迭代交互式建模的双臂机器人塑料袋打结算法

17:12

【RLChina论文研讨会】第36期杨以钦基于流模型的离线分层强化学习

15:33

【RLChina论文研讨会】第36期陈晰基于潜变量优势加权的离线强化学习优化算法

27:52

【RLChina论文研讨会】第36期张进 CUP：基于评论家的策略迁移

19:19

【RLChina论文研讨会】第35期薛轲多智能体动态算法配置

37:49

【RLChina论文研讨会】第35期袁雷基于演化生成及辅助对抗攻击训练的鲁棒性多智能体强化学习

50:16

【RLChina论文研讨会】第34期马一宁解决车辆路径问题的深度强化学习方法：近期发展及挑战

34:13

【RLChina论文研讨会】第34期尤扬 POMDP与Dec-POMDP问题的精确与近似解法

25:16

【RLChina论文研讨会】第34期李姝昕基于预训练的策略求解大规模追击博弈

27:06

【RLChina论文研讨会】第33期万旭 AdapSafe面向低碳电力系统频率控制的自适应与安全保证深度强化学习算法

33:45

【RLChina论文研讨会】第33期邱伟 Off-Beat Multi-Agent Reinforcement Learning

29:09

【RLChina论文研讨会】第32期任杰 TorchOpt 高效可微优化库 (TorchOpt An Efficient Library for Differ

25:02

【RLChina论文研讨会】第32期刘博一种元强化学习中梯度偏差的理论理解

33:04

【RLChina论文研讨会】第31期李健雄 Distance-sensitive offline reinforcement learning

27:40

【RLChina论文研讨会】第31期牛浩懿何时相信你的仿真器：考虑动力学偏差的混合离线在线强化学习

26:08

【RLChina论文研讨会】第31期姜力一种模仿结合策略引导的离线强化学习算法

42:47

【RLChina 论文研讨会】第30期吕加飞在信任之前双重检查状态：信任感知的基于模型的双向离线生成

33:13

【RLChina论文研讨会】第30期徐志伟基于模型的合作多智能体强化学习方法

17:44

【RLChina 论文研讨会】第29期白丰硕元奖励网络：一种隐式微分奖励学习的基于偏好的强化学习方法

29:23

【RLChina 论文研讨会】第29期郭亨铨强约束条件下在线凸优化算法研究

18:59

【RLChina 论文研讨会】第29期蒋铮尧隐动作空间内的高效规划

24:17

【RLChina 论文研讨会】第28期吴梓帆规划模型预测：基于策略与模型角色反转的有模型强化学习算法

22:43

【RLChina 论文研讨会】第28期刘宗凯基于策略多样性的多智能体强化学习

22:47

【RLCHina 论文研讨会】第27期刘世旋增广POMDP：一种结合观测型数据和干预型数据的因果强化学习方法

21:03

【RLChina 论文研讨会】第27期王琦基于模型的元强化学习：一种图结构代理模型和快速迁移的策略学习

26:44

【RLChina论文研讨会】第25期温睦宁 MARL is a Sequence Modeling Problem

31:19

【RLChina论文研讨会】第25期顾尚定 Safe policy optimization for MARL

22:30

【RLChina论文研讨会】第25期马成栋 Fully Decentralized M-based Policy Optimization for Netw—

34:57

【RLChina论文研讨会】第24期王远非 Multi-Agent Communication and Cooperation with Theory of

26:47

【RLChina论文研讨会】第24期袁昊琦离线元强化学习中基于对比学习的稳定任务表示

33:21

【RLChina论文研讨会】第23期刘旭辉正则化的影响：从”教学“角度出发

24:52

【RLChina论文研讨会】第23期李子牛 New Theore. Understand. of Adversarial Imitation Learning

48:46

【RLChina论文研讨会】第22期尤恒基于状态和动作对应关系的跨域自适应迁移强化学习

19:16

【RLChina论文研讨会】第22期辜鹏杰基于伪度量动作表征的离线强化学习

27:35

【RLChina论文研讨会】第22期熊浩宇 Robot Learning from Human Videos

23:09

【RLChina论文研讨会】第21期胡昊 On the Role of Discount Factor in Offline RL

26:13

【RLChina论文研讨会】第21期马骁腾 Offline RL with Value-based Episodic Memory

15:24

【RLChina论文研讨会】第21期王同翰 Context-Aware Sparse Deep Coordination Graphs

24:03

【RLChina论文研讨会】第20期张杨基于离线强化学习框架的在线优惠券分配策略研究

27:53

【RLChina论文研讨会】第20期李鹏翼基于渐进式互信息协作的多智能体强化学习

48:10

【RLChina论文研讨会】第19期樊小峰 When Reinforcement Learning meets Federated Learning with

51:46

【RLChina论文研讨会】第19期潘玲 Softmax Regularized Deep Multi-Agent Q-Learning

25:18

【RLChina论文研讨会】第19期袁雷 Multi-Agent Incentive Communication via Decentralized Team

31:24

【RLChina论文研讨会】第18期杨正宇面向应用的强化学习：使用策略集成提高泛化和样本效率

33:10

【RLChina论文研讨会】第18期陈竞潇王者荣耀中的人工智能方法

34:55

【RLChina论文研讨会】第17期许云秋 Perceiving the World Question-guided RL for Text-b Games

20:38

【RLChina论文研讨会】第17期陈嘉欣 The Neural MMO Platform for Massively Multiagent Research

40:43

【RLChina论文研讨会】第16期阮景晴 GCS Graph-based Coordination Strategy for Multi-Agent RL

21:38

【RLChina论文研讨会】第16期杨以钦 A Reliable Off-line Learning Method

25:10

【RLChina论文研讨会】第16期邱文杰 Programmatic Reinforcement Learning without Oracles

27:16

【RLChina论文研讨会】第15期陈睿卿 Multi-Agent Trust Region Policy Optimization Algorithm

18:59

【RLChina论文研讨会】第15期温睦宁 Settling the Variance of Multi-Agent Policy Gradients

27:41

【RLChina论文研讨会】第15期刘相宇 Unifying Response Div. for Open-Ended L in Zero-Sum Games

25:55

【RLChina论文研讨会】第14期施伟 Hierarchical Reinforcement Learning With Timed Subgoals

19:55

【RLChina论文研讨会】第14期张龙飞 Data-Augmented Offline Reinforcement Learning

32:53

【RLChina论文研讨会】第14期王戎骁 When Should Agents Explore

26:21

【RLChina论文研讨会】第13期郑学敬 Lifelong RL with Temporal Logic Formulas and Reward Machi

21:19

【RLChina论文研讨会】第13期李斯源 Active Hierarchical Exploration with Stable Subgoal Rep-L

16:12

【RLChina论文研讨会】第13期吴梓帆 Coordinated Proximal Policy Optimization

12:56

【RLChina论文研讨会】第12期 Juliusz Ziomek Settling the Communication Complexity for DORL

30:48

【RLChina论文研讨会】第12期窦泽皓 Understanding Value Decomposition Algorithms in DC MARL

29:14

【RLChina论文研讨会】第11期栾绍童 Gaussian Process based Deep Dyna-Q approach for Dialogue

20:13

【RLChina论文研讨会】第11期刘旭辉 Regret Minimization Experience Replay in Off-Policy RL

19:48

【RLChina论文研讨会】第11期王治海 Sample-Efficient RL via Conservative M-b Actor-Critic

22:18

【RLChina论文研讨会】第10期郭家贤 A Rela Inter Approach for Un-super Dyna General in M-b RL

34:42

【RLChina论文研讨会】第10期许云秋 Knowledge Graph in Solving Text-based Games

16:22

【RLChina论文研讨会】第10期杨瑞 Rethink Goal-conditioned Supervised L &Its Conne to Off RL

28:27

【RLChina论文研讨会】第9期黄柏贺 Sample Complexity of Reinforcement Learning with Non-linea

16:52

【RLChina论文研讨会】第9期胡家琛 Near-Optimal Representation Learning for Linear Bandits

22:32

【RLChina论文研讨会】第9期钟方威 Towards Distraction-Robust Active Visual Tracking

14:40

【RLChina论文研讨会】第8期罗凡明 Adapt to Environment Sudden Changes by Learning a Context

18:28

【RLChina论文研讨会】第8期蔡欣强 Imitation Learning from Pixel-Level Demonstrations by Hash

25:48

【RLChina论文研讨会】第8期闫雪 Estimating Alpha-Rank from A Few Entries with Low Rank Matr

14:25

【RLChina论文研讨会】第7期陈雄辉 Offline Model-based Adaptable Policy Learning

20:08

【RLChina论文研讨会】第7期倪飞 A Multi-Graph Attributed Reinforcement Learning based Optim

21:48

【RLChina论文研讨会】第7期马亿 A Hierarchical Reinforcement Learning Based Optimization Fr

22:11

【RLChina论文研讨会】第6期李承昊 Celebrating Diversity in Shared Multi-Agent Reinforcement

22:09

【RLChina论文研讨会】第6期李文哲 Offline RL with Reverse Model-based Imagination

19:47

【RLChina论文研讨会】第6期汤宏垚 What About Inputting Policy in Value Function

24:44

【RLChina论文研讨会】第5期于钊 DREAM Deep Regret minimization with Advantage baselines and

28:21

【RLChina论文研讨会】第5期沈之浩 DeepAPP_ A Deep Reinforcement Learning Framework for Mobil

18:18

【RLChina论文研讨会】第5期王鉴浩 Towards Understanding Cooperative Multi-Agent Q-Learning w

25:25

【RLChina 论文研讨会】第4期王润东 Deep Stock Trading- A Hierarchical RL Framework for Portf

25:48

【RLChina 论文研讨会】第4期郑璐璐 Episodic MARL with Curiosity-driven Exploration

18:22

【RLChina论文研讨会】第4期王小强 Ordering-Based Causal Discovery with RL

19:16

【RLChina 论文研讨会】第3期邱伟 Towards mental time travel a hierarchical memory

21:24

【RLChina 论文研讨会】第3期王剑虹 Multi-Agent Reinforcement Learning for Active

54:04

【RLChina 论文研讨会】第3期赖行 On Effective Scheduling of Model-based

12:30

【RLChina 论文研讨会】第2期刘明桓 Curriculum Offline Imitation Learning

29:38

【RLChina 论文研讨会】第2期白辰甲 Dynamic Bottleneck for Robust Self-Supervised Exploration

24:33

【RLChina 论文研讨会】第2期李锡涵 Grassland: A Rapid Algebraic Modeling System for Million

23:52

【RLChina 论文研讨会】第1期

01:17:22

【RLChina论文研讨会】第78期 袁昊琦 用预训练目标模型辅助强化学习中的样本高效利用

【RLChina论文研讨会】第78期袁昊琦用预训练目标模型辅助强化学习中的样本高效利用