メンバー

塩川龍次	ヒューマンインザループ型強化学習によるクレーンの安全アシスト制御
間庭卓也	自動運転における絶体絶命時の危険回避操作の獲得
大野優太	長期的視点で学習するTransformerモデル〜意思決定における重要行動の推定〜
中条隼人	意思決定タイミングの最適化によるパレート方策の網羅的獲得
高桑直大	個人の選好ダイナミクス推定による快適なAI共生社会の実現
杉山翔湧	動的環境における不完全観測の特徴量補完法
劉誠	拡散モデルによるパレート最適方策の獲得～列車自動運転の定時性，安定性，省エネルギーの実現～
永田健斗	安全で最適な制御を保証する誘導型バリア関数ベースの強化学習
蓑島康太	学習過程の行動軌跡のランク付けによる自動Reward Shaping ～強化学習の学習効率，収束性向上に向けて～

野尻健人	Transformer を用いた制御系の学習を加速する『褒め方の匙加減』～敵対的逆強化学習による推定報酬の導入～
Harits ISMAIL	Preference-based 強化学習における選好の評価フレームワーク～人間の好みを説明する物理量の同定～
佐野優輝	回生電力活用の最大化に向けた変電所間の協調型出力制御
関柊汰	学習収束後の失敗経験の追加学習による危険回避制御の性能改善～失敗を活かすタイミングの実験的考察～