宮下/文献/Reinforcement Learning of Motor Skills in High Dimensions
[
Front page
] [
New
|
List of pages
|
Search
|
Recent changes
|
Help
] [
Japanese
/
English
]
Research
research overview
papers
media
Members
professors
graduates
undergraduates
alumni
Links
Links
Classes
Computer Programming Basic II
Special Lecture of Mechanical Intelligent System Engineering I
Start:
[[宮下/文献]]
#setlinebreak(1);
*Contents [#m35adce9]
#contents
*[[Reinforcement Learning of Motor Skills in High Dimensi...
**''Abstract'' [#jc72420b]
強化学習は学習制御の中の最も一般的なアプローチである.し...
**&size(20){''Ⅰ. イントロダクション(INTRODUCTION)''}; [#q...
強化学習(RL)は真に自律的な学習システムを作成するための学...
これらの発想を踏まえて,この論文では[14], [4]の研究に基づ...
次のセクションでは,初めに経路積分を用いた最適制御の一般...
>
-"an actual robot dog"と言っているが,シミュレーションで...
**&size(20){''Ⅱ. 経路積分法を用いた確率的最適制御(STOCHAS...
***&size(18){''確率的最適制御(Stochastic Optimal Control ...
-$R({\bm \tau}_i)=\phi_{t_N}+\int^{t_N}_{t_i}r_tdt$: 報酬...
-$\phi_{t_N}=\phi(x_{t_N})$: 終了時間$t_N$における終端コ...
-$\tau_i$: 軌道
-$t_i$: 軌道$\tau_i$の開始時間
-$t_N$: 軌道$\tau_i$の終了時間
-$V(x_{t_i})=V_t={\rm {min}}_{\bm u_{t_i:t_N}}E_{{\bm \ta...
ガウシアンノイズの分散$\epsilon_t$は考慮されておらず,平...
最小の$\bm u_{t_i:t_N}$が入るのだから,$\bm V_t\in \mathb...
仮に$V(x_{t_{i+1}})=V_t$と定義されたなら,${V_t=\rm {min}...
-$\bm x_t\in \mathbb{R}^{n\times1}$: 時刻$t$におけるシス...
-$\bm G_T\in \mathbb{R}^{n\times p}$: 制御行列
-$\bm u_t\in \mathbb{R}^{p\times1}$: 時刻$t$における制御...
-$\epsilon_t\in \mathbb{R}^{p\times1}$: 時刻$t$における分...
-$r_t=r(\bm x_t, \bm u_t, t)=q_t+\bm u_t \bm R \bm u_t$: ...
--$q_t=q(\bm x_t, t)$:任意の状態に依存する報酬関数
--$\bm R$: 二次の制御コストの半正定値重み行列
とすると
最適制御問題と関連付けたHJB方程式は
\[
\partial_tV_t=q_t+(\partial_xV_t)^T\bm f_t-\frac{1}{2}(\p...
\]
となる.
$\partial_x$と$\partial_{xx}$はそれぞれ,状態$\bm x$につ...
>
つまり$\partial_x$はヤコビアンで$\partial_{xx}$はヘッシア...
具体的には
\[
\partial_x = det\left(
\begin{array}{ccc}
\frac{\partial V_{t_i}}{\partial \bm x_1} & \cdots & ...
\vdots & \ddots & \vdots \\
\frac{\partial V_{t_N}}{\partial \bm x_1} & \cdots & ...
\end{array}
\right)\\
\partial_{xx} = det\left(
\begin{array}{ccc}
\frac{\partial^2 \bm V_t}{\partial \bm x_1^2} & \cdot...
\vdots & \ddots & \vdots \\
\frac{\partial^2 \bm V_t}{\partial \bm x_n\partial \b...
\end{array}
\right)\\
\]
%%[[Functions - Gradient, Jacobian and Hessian:http://www...
([[微分演算子:勾配ベクトル、ヤコビ行列・ヤコビアン、ヘ...
[[ヤコビ行列,ヤコビアンの定義と極座標の例 _ 高校数学の美...
具体的じゃないとイメージが湧かないし,わからない.後回し!
悩んでもキリがないので,1階微分と2階微分という気分で置い...
***&size(18){''HJB方程式の線形化(Linearization of the HJB...
価値関数を対数変換して,$\lambda \bm G_t \bm R^{-1} \bm G...
\[
\tag{6}
\]
境界条件:$\psi_{t_N}=\rm exp\left( -\frac{1}{\lambda}\ph...
式(7)はコルモゴロフの後退方程式と呼ばれる.一般的な場合,...
\[
\tag{7}
\]
***&size(18){''経路積分法の生成(Generalized Path Integral...
剛体動力学やDynamic Motion Primitive(DMP)のような多くの確...
\[
\tag{8}
\]
-$p(\bm \tau_i)$: 軌道の遷移確率
-
***&size(18){''最適制御(Optimal Controls)''}; [#y69ff3eb]
**&size(20){''Ⅲ.パラメータ化された方策(PARAMETRIZED POLIC...
最適制御の経路積分法の論理的枠組みが備わっていると,強化...
\[
\bm a_{t_i}=\bm g^T_{t_i}(\bm\theta+\bm\epsilon_{t_i}) \t...
\]
として線形にパラメータ化される.
>
-ここでは軌道$\bm \tau=(\bm x_{t_0}, \bm a_{t_0}, \dots, ...
[[Generalized Path Integral Formulation>#t1cf6f5f]]では軌...
以下の説明では$\bm \tau$と書かれていれば前者の軌道,$\bm ...
#hr
TABLE Ⅰ
1次元のパラメータ化された方策のためのPI^2アルゴリズムの疑...
-''所与''
--即時コスト関数:$r_t = q_t+\bm\theta^T_r\bm R\bm\theta_t$
--終端コスト項:$\phi_{T_N}$
--確率的にパラメータ化された方策:$\bm a_t=\bm g_t^T(\bm\...
--システムダイナミクスから得られた基底関数$\bm G_{t_i}$
--平均0のノイズ$\bm\epsilon_t$
--初期パラメータベクトル$\bm\theta$
-軌道コスト$R$が収束するまで''繰り返す''
--''step 1: ''毎時間ステップについての確率的パラメータ$\b...
--''step 2: ''全てのKのロールアウトについて計算:
---''step 2.1: ''$M_{t_j, k}=\frac{\bm R^{-1}\bm g_{t_j, ...
---''step 2.2: ''それぞれの抽出された軌道についてコストを...
$S(\bm\tau_{i, k})=\phi_{t_N, k}+\sum^{N-1}_{j=i}q_{t_j, ...
---''step 2.3: ''$P(\bm\tau_{i, k})=\frac{e^{-\frac{1}{\l...
--''step 3: ''すべての時間ステップiについて,計算:
---''step 3.1: ''$\delta\bm\theta_{t_i}=\sum^K_{k=1}[ P(\...
--''step 4: ''計算…$\delta\bm\theta=\frac{\sum^{N-1}_{k=1...
--''step 5: ''更新…$\bm\theta \rightarrow \bm\theta +\del...
--''step 6: ''軌道コストを確認することでノイズの無いロー...
$R=\phi_{t_N}+\sum^{N-1}_{i=0}r_{t_i}$
#hr
$\bm g_{t_i}$は基底関数のベクトルで$\bm \theta$はパラメー...
\[
\frac{1}{\tau}\dot{z}_t = f_t+\bm g^T_t(\bm \theta + \bm ...
\frac{1}{\tau}\dot{y}_t = z_t, \\
\frac{1}{\tau}\dot{x}_t = -\alpha x_t
\]
$f_t=\alpha_z(\beta_z(g-y_t)-z_t)$である.特に,$y_{t_0}$...
>
-"optimized over"の"over"は何か特別な意味を持つのだろうか.
-Learning Control on Roboticsでは"trajectory"を「状態の時...
行動というのは制御で考えると入力とみなせるので,「入力と...
-マルコフ性:これまで通ってきた道筋(履歴)とは関係なく,...
[[OR 第二 – マルコフ連鎖の基礎 –:http://mathopt.sakura.ne...
-"point attractor"
[[Point Attractor - Fractal Wisdom:http://www.fractalwisd...
-$\alpha$はどういう意味を持つのか.
-(21)の$x_t$と状態$\bm x_t$は別物だよね?
特に,ステップ(2.3)のときの項$P(\bm \tau_{i, k})$は,ステ...
\[
e^{-\frac{1}{\lambda}\tilde{S}(\bm\tau_i)}=\rm{exp}\left(...
\]
のように示される.すべての我々の評価は$c=10$であり,この...
>
-(22)について,[[A Genelized Path Integral Control Approa...
[[Optimal Controls>#y69ff3eb]]で述べられているように,$\t...
-(22)について,ロールアウトの中の$\rm{min}$と$\rm{max}$で...
([[A Genelized Path Integral Control Approach to Reinfor...
-$lambda$をなくせたと言っているけど,結局$c$も調整が必要...
**&size(20){''Ⅳ.評価(EVALUATIONS)''}; [#da0e71c0]
いくつかの総合的な例でREINFORCE,GPOMDP, eNAC, [20], [21]...
>
-なぜ"Except for PoWER"の"E"が大文字なのか.→たぶんピリオ...
-なぜ"reward function"と"cost function"が両方出てくるのか...
***''A. 多自由度経由点の学習最適性能(Learning Optimal Per...
初めの評価では,多次元多冗長度の学習問題によって我々のア...
\[
\tag{23}
\]
この問題の即時報酬関数は以下のように定義される.
\[
r_t=\frac
{\sum^d_{i=1}(d+1-i)\left(0.1f^2_{i,t}+0.5\bm\theta^T_i\b...
{\sum^d_{i=1}(d+1-i)}\\
\dots
\tag{24}
\]
>
そういえば,即時報酬関数の一般式$r_t=q_t+\bm\theta^T_t \b...
$\Delta r_{300ms}$は$r_t$に時間$t=300ms$を加えたものであ...
>
-"the first line of (22)"は"the first line of (21)"の間違い
-運動プリミティブのゴール状態が自由度に命令するってどうい...
-タスク空間の崩壊って何?
この実験をまとめた結果がFigure 1である.左の列の学習曲線...
Figure 1はまた学習前後でエンドエフェクタのとった経路を図...
***''B. ロボット学習のアプリケーション(Application to Rob...
Figure 2はロボット学習問題のアプリケーションである.この...
>
-具体的にいつ何を手動調整するのか,よくわからない.
PI^2学習は報酬として主に前進を使い,各自由度の加速度の二...
\[
\dots
\]
この$roll, yaw$はロボットの体のロールとヨー角で,$x_{nose...
Figute 2は約30トライアル後(5回の更新)に図示されたもので...
>
-重点サンプリング(importance sampling)
[[インポータンス・サンプリング(importance sampling)の有難...
-報酬の+要素:ロボットの前進…これは前進した距離ということ...
報酬の-要素:各自由度の加速度の二乗,パラメータベクトルの...
行動:?…たぶん各自由度の角度だとは思うが,明示的には書か...
状態:?…ロボットの前進とかそういうことかな,明示的には書...
**&size(20){''Ⅴ.結論(CONCLUSIONS)''}; [#k60e59cc]
この論文では[12], [9]に基づいて,経路積分の確率的最適制御...
>
-オープンチューニングとは?…たぶん手動調整とかそういう意...
-ノイズの探索って具体的にはどんなことをするの?
&br;
*PI^2の特徴 [#o6886eef]
-モデルフリー価値関数ベースの強化学習
-高次元で連続な状態行動空間の強化学習ができる
-更新方程式は驚くほど単純
-行列反転も勾配学習率も必要としないので,数値的不安定とな...
-ノイズの探索を除けば,パラメータのオープンチューニングが...
*Eveluation Aの実装について [#se14110a]
-プログラム内の式と比較
プログラム
F=alphaz*(betaz*(gxi-xi[t])-dotXi[t])
これをEveluation Aの表現と置き換えたもの
$f_{i,t}=\alpha_z(\beta_z(G-\xi_{i,t})-\dot{\xi}_{i,t})$
一般式
$f_t=\alpha_z(\beta_z(g-y_t)-z_t)$
つまり$\xi_{i, t}=y_t$,$\dot{\xi}_{i, t}=z_t$と考えられ...
-Eveluation A
$\ddot{\xi}_{i, t}=f_{i,t}+\bm g^T_{i.,t}(\bm \theta_i+\e...
一般式
$\frac{1}{\tau}\dot{z}_t = f_t+\bm g^T_t(\bm \theta + \bm...
-「状態」とは具体的に何か?
[[3.3 Dynamic Movement Primitives as Generalized Policies...
$y_t, \dot{y}_t$は軌道の位置,速度で$z_t, x_t$は内部状態...
また軌道は,$\bm \tau_i=(\bm x_{t_i}, \bm x_{t_{i+1}}, \d...
-「行動」とは具体的に何か?
行動は$\bm a_t=\bm g_t^T(\bm\theta+\bm\epsilon_t)$で表さ...
>
実際のロボットで考えてみても,確かにそんな感じがする.
特に「行動」の加速度が定まってしまえば,モータの特性やギ...
↔でも本当にそういうことかな? 人間が与える一番初めのもの...
[[actionとinputの違い>../A Genelized Path Integral Contro...
-元の実装の直したいところ
--$\lambda$を考慮してしまっているので,報酬の大きさによっ...
なのでcに置き換えられるようにしたい.
--関節の位置による重み付けが実装されていない
--step2.1 などで計算されている$M$が,計算されていない
*DMPの解釈 [#t6595cbd]
*関連文献 [#w74e82f2]
-[[A Genelized Path Integral Control Approach to Reinforc...
より詳しく書かれている
-[[Reinforcement Learning of Motor Skills in High Dimensi...
ほぼ同じ内容
End:
[[宮下/文献]]
#setlinebreak(1);
*Contents [#m35adce9]
#contents
*[[Reinforcement Learning of Motor Skills in High Dimensi...
**''Abstract'' [#jc72420b]
強化学習は学習制御の中の最も一般的なアプローチである.し...
**&size(20){''Ⅰ. イントロダクション(INTRODUCTION)''}; [#q...
強化学習(RL)は真に自律的な学習システムを作成するための学...
これらの発想を踏まえて,この論文では[14], [4]の研究に基づ...
次のセクションでは,初めに経路積分を用いた最適制御の一般...
>
-"an actual robot dog"と言っているが,シミュレーションで...
**&size(20){''Ⅱ. 経路積分法を用いた確率的最適制御(STOCHAS...
***&size(18){''確率的最適制御(Stochastic Optimal Control ...
-$R({\bm \tau}_i)=\phi_{t_N}+\int^{t_N}_{t_i}r_tdt$: 報酬...
-$\phi_{t_N}=\phi(x_{t_N})$: 終了時間$t_N$における終端コ...
-$\tau_i$: 軌道
-$t_i$: 軌道$\tau_i$の開始時間
-$t_N$: 軌道$\tau_i$の終了時間
-$V(x_{t_i})=V_t={\rm {min}}_{\bm u_{t_i:t_N}}E_{{\bm \ta...
ガウシアンノイズの分散$\epsilon_t$は考慮されておらず,平...
最小の$\bm u_{t_i:t_N}$が入るのだから,$\bm V_t\in \mathb...
仮に$V(x_{t_{i+1}})=V_t$と定義されたなら,${V_t=\rm {min}...
-$\bm x_t\in \mathbb{R}^{n\times1}$: 時刻$t$におけるシス...
-$\bm G_T\in \mathbb{R}^{n\times p}$: 制御行列
-$\bm u_t\in \mathbb{R}^{p\times1}$: 時刻$t$における制御...
-$\epsilon_t\in \mathbb{R}^{p\times1}$: 時刻$t$における分...
-$r_t=r(\bm x_t, \bm u_t, t)=q_t+\bm u_t \bm R \bm u_t$: ...
--$q_t=q(\bm x_t, t)$:任意の状態に依存する報酬関数
--$\bm R$: 二次の制御コストの半正定値重み行列
とすると
最適制御問題と関連付けたHJB方程式は
\[
\partial_tV_t=q_t+(\partial_xV_t)^T\bm f_t-\frac{1}{2}(\p...
\]
となる.
$\partial_x$と$\partial_{xx}$はそれぞれ,状態$\bm x$につ...
>
つまり$\partial_x$はヤコビアンで$\partial_{xx}$はヘッシア...
具体的には
\[
\partial_x = det\left(
\begin{array}{ccc}
\frac{\partial V_{t_i}}{\partial \bm x_1} & \cdots & ...
\vdots & \ddots & \vdots \\
\frac{\partial V_{t_N}}{\partial \bm x_1} & \cdots & ...
\end{array}
\right)\\
\partial_{xx} = det\left(
\begin{array}{ccc}
\frac{\partial^2 \bm V_t}{\partial \bm x_1^2} & \cdot...
\vdots & \ddots & \vdots \\
\frac{\partial^2 \bm V_t}{\partial \bm x_n\partial \b...
\end{array}
\right)\\
\]
%%[[Functions - Gradient, Jacobian and Hessian:http://www...
([[微分演算子:勾配ベクトル、ヤコビ行列・ヤコビアン、ヘ...
[[ヤコビ行列,ヤコビアンの定義と極座標の例 _ 高校数学の美...
具体的じゃないとイメージが湧かないし,わからない.後回し!
悩んでもキリがないので,1階微分と2階微分という気分で置い...
***&size(18){''HJB方程式の線形化(Linearization of the HJB...
価値関数を対数変換して,$\lambda \bm G_t \bm R^{-1} \bm G...
\[
\tag{6}
\]
境界条件:$\psi_{t_N}=\rm exp\left( -\frac{1}{\lambda}\ph...
式(7)はコルモゴロフの後退方程式と呼ばれる.一般的な場合,...
\[
\tag{7}
\]
***&size(18){''経路積分法の生成(Generalized Path Integral...
剛体動力学やDynamic Motion Primitive(DMP)のような多くの確...
\[
\tag{8}
\]
-$p(\bm \tau_i)$: 軌道の遷移確率
-
***&size(18){''最適制御(Optimal Controls)''}; [#y69ff3eb]
**&size(20){''Ⅲ.パラメータ化された方策(PARAMETRIZED POLIC...
最適制御の経路積分法の論理的枠組みが備わっていると,強化...
\[
\bm a_{t_i}=\bm g^T_{t_i}(\bm\theta+\bm\epsilon_{t_i}) \t...
\]
として線形にパラメータ化される.
>
-ここでは軌道$\bm \tau=(\bm x_{t_0}, \bm a_{t_0}, \dots, ...
[[Generalized Path Integral Formulation>#t1cf6f5f]]では軌...
以下の説明では$\bm \tau$と書かれていれば前者の軌道,$\bm ...
#hr
TABLE Ⅰ
1次元のパラメータ化された方策のためのPI^2アルゴリズムの疑...
-''所与''
--即時コスト関数:$r_t = q_t+\bm\theta^T_r\bm R\bm\theta_t$
--終端コスト項:$\phi_{T_N}$
--確率的にパラメータ化された方策:$\bm a_t=\bm g_t^T(\bm\...
--システムダイナミクスから得られた基底関数$\bm G_{t_i}$
--平均0のノイズ$\bm\epsilon_t$
--初期パラメータベクトル$\bm\theta$
-軌道コスト$R$が収束するまで''繰り返す''
--''step 1: ''毎時間ステップについての確率的パラメータ$\b...
--''step 2: ''全てのKのロールアウトについて計算:
---''step 2.1: ''$M_{t_j, k}=\frac{\bm R^{-1}\bm g_{t_j, ...
---''step 2.2: ''それぞれの抽出された軌道についてコストを...
$S(\bm\tau_{i, k})=\phi_{t_N, k}+\sum^{N-1}_{j=i}q_{t_j, ...
---''step 2.3: ''$P(\bm\tau_{i, k})=\frac{e^{-\frac{1}{\l...
--''step 3: ''すべての時間ステップiについて,計算:
---''step 3.1: ''$\delta\bm\theta_{t_i}=\sum^K_{k=1}[ P(\...
--''step 4: ''計算…$\delta\bm\theta=\frac{\sum^{N-1}_{k=1...
--''step 5: ''更新…$\bm\theta \rightarrow \bm\theta +\del...
--''step 6: ''軌道コストを確認することでノイズの無いロー...
$R=\phi_{t_N}+\sum^{N-1}_{i=0}r_{t_i}$
#hr
$\bm g_{t_i}$は基底関数のベクトルで$\bm \theta$はパラメー...
\[
\frac{1}{\tau}\dot{z}_t = f_t+\bm g^T_t(\bm \theta + \bm ...
\frac{1}{\tau}\dot{y}_t = z_t, \\
\frac{1}{\tau}\dot{x}_t = -\alpha x_t
\]
$f_t=\alpha_z(\beta_z(g-y_t)-z_t)$である.特に,$y_{t_0}$...
>
-"optimized over"の"over"は何か特別な意味を持つのだろうか.
-Learning Control on Roboticsでは"trajectory"を「状態の時...
行動というのは制御で考えると入力とみなせるので,「入力と...
-マルコフ性:これまで通ってきた道筋(履歴)とは関係なく,...
[[OR 第二 – マルコフ連鎖の基礎 –:http://mathopt.sakura.ne...
-"point attractor"
[[Point Attractor - Fractal Wisdom:http://www.fractalwisd...
-$\alpha$はどういう意味を持つのか.
-(21)の$x_t$と状態$\bm x_t$は別物だよね?
特に,ステップ(2.3)のときの項$P(\bm \tau_{i, k})$は,ステ...
\[
e^{-\frac{1}{\lambda}\tilde{S}(\bm\tau_i)}=\rm{exp}\left(...
\]
のように示される.すべての我々の評価は$c=10$であり,この...
>
-(22)について,[[A Genelized Path Integral Control Approa...
[[Optimal Controls>#y69ff3eb]]で述べられているように,$\t...
-(22)について,ロールアウトの中の$\rm{min}$と$\rm{max}$で...
([[A Genelized Path Integral Control Approach to Reinfor...
-$lambda$をなくせたと言っているけど,結局$c$も調整が必要...
**&size(20){''Ⅳ.評価(EVALUATIONS)''}; [#da0e71c0]
いくつかの総合的な例でREINFORCE,GPOMDP, eNAC, [20], [21]...
>
-なぜ"Except for PoWER"の"E"が大文字なのか.→たぶんピリオ...
-なぜ"reward function"と"cost function"が両方出てくるのか...
***''A. 多自由度経由点の学習最適性能(Learning Optimal Per...
初めの評価では,多次元多冗長度の学習問題によって我々のア...
\[
\tag{23}
\]
この問題の即時報酬関数は以下のように定義される.
\[
r_t=\frac
{\sum^d_{i=1}(d+1-i)\left(0.1f^2_{i,t}+0.5\bm\theta^T_i\b...
{\sum^d_{i=1}(d+1-i)}\\
\dots
\tag{24}
\]
>
そういえば,即時報酬関数の一般式$r_t=q_t+\bm\theta^T_t \b...
$\Delta r_{300ms}$は$r_t$に時間$t=300ms$を加えたものであ...
>
-"the first line of (22)"は"the first line of (21)"の間違い
-運動プリミティブのゴール状態が自由度に命令するってどうい...
-タスク空間の崩壊って何?
この実験をまとめた結果がFigure 1である.左の列の学習曲線...
Figure 1はまた学習前後でエンドエフェクタのとった経路を図...
***''B. ロボット学習のアプリケーション(Application to Rob...
Figure 2はロボット学習問題のアプリケーションである.この...
>
-具体的にいつ何を手動調整するのか,よくわからない.
PI^2学習は報酬として主に前進を使い,各自由度の加速度の二...
\[
\dots
\]
この$roll, yaw$はロボットの体のロールとヨー角で,$x_{nose...
Figute 2は約30トライアル後(5回の更新)に図示されたもので...
>
-重点サンプリング(importance sampling)
[[インポータンス・サンプリング(importance sampling)の有難...
-報酬の+要素:ロボットの前進…これは前進した距離ということ...
報酬の-要素:各自由度の加速度の二乗,パラメータベクトルの...
行動:?…たぶん各自由度の角度だとは思うが,明示的には書か...
状態:?…ロボットの前進とかそういうことかな,明示的には書...
**&size(20){''Ⅴ.結論(CONCLUSIONS)''}; [#k60e59cc]
この論文では[12], [9]に基づいて,経路積分の確率的最適制御...
>
-オープンチューニングとは?…たぶん手動調整とかそういう意...
-ノイズの探索って具体的にはどんなことをするの?
&br;
*PI^2の特徴 [#o6886eef]
-モデルフリー価値関数ベースの強化学習
-高次元で連続な状態行動空間の強化学習ができる
-更新方程式は驚くほど単純
-行列反転も勾配学習率も必要としないので,数値的不安定とな...
-ノイズの探索を除けば,パラメータのオープンチューニングが...
*Eveluation Aの実装について [#se14110a]
-プログラム内の式と比較
プログラム
F=alphaz*(betaz*(gxi-xi[t])-dotXi[t])
これをEveluation Aの表現と置き換えたもの
$f_{i,t}=\alpha_z(\beta_z(G-\xi_{i,t})-\dot{\xi}_{i,t})$
一般式
$f_t=\alpha_z(\beta_z(g-y_t)-z_t)$
つまり$\xi_{i, t}=y_t$,$\dot{\xi}_{i, t}=z_t$と考えられ...
-Eveluation A
$\ddot{\xi}_{i, t}=f_{i,t}+\bm g^T_{i.,t}(\bm \theta_i+\e...
一般式
$\frac{1}{\tau}\dot{z}_t = f_t+\bm g^T_t(\bm \theta + \bm...
-「状態」とは具体的に何か?
[[3.3 Dynamic Movement Primitives as Generalized Policies...
$y_t, \dot{y}_t$は軌道の位置,速度で$z_t, x_t$は内部状態...
また軌道は,$\bm \tau_i=(\bm x_{t_i}, \bm x_{t_{i+1}}, \d...
-「行動」とは具体的に何か?
行動は$\bm a_t=\bm g_t^T(\bm\theta+\bm\epsilon_t)$で表さ...
>
実際のロボットで考えてみても,確かにそんな感じがする.
特に「行動」の加速度が定まってしまえば,モータの特性やギ...
↔でも本当にそういうことかな? 人間が与える一番初めのもの...
[[actionとinputの違い>../A Genelized Path Integral Contro...
-元の実装の直したいところ
--$\lambda$を考慮してしまっているので,報酬の大きさによっ...
なのでcに置き換えられるようにしたい.
--関節の位置による重み付けが実装されていない
--step2.1 などで計算されている$M$が,計算されていない
*DMPの解釈 [#t6595cbd]
*関連文献 [#w74e82f2]
-[[A Genelized Path Integral Control Approach to Reinforc...
より詳しく書かれている
-[[Reinforcement Learning of Motor Skills in High Dimensi...
ほぼ同じ内容
Page: