宮下/日誌(宮下)/過去/201605
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
] [
Japanese
/
English
]
研究について
研究の概要
論文発表
メディア
メンバー
教員
大学院生
学部生
OB
リンク
リンク集
授業
コンピュータプログラミング基礎II
機械知能システム工学特別講義I
機械システム工学特論(MORE SENSE特論)
内部用
物品管理(registries)
外部ソフトウェア
PC環境設定
買い物
プリンタ設定
定例研究会(weekly)
研究発表会(monthly)
閲覧回数順
開始行:
[[宮下]]
#setlinebreak(1);
*目次 [#r333c4b1]
#contents
*2016年5月 [#ucc33320]
**2015/5/31 DMPがわからない [#u0d6acb6]
PathIntegralのプログラムを見ている.論文と見比べているが...
DMPという概念がわからない.
-[[dmp - ROS Wiki:http://wiki.ros.org/dmp]]
-[[戦略的創造研究推進事業 ERATO:http://www.jst.go.jp/erat...
**2015/5/30 今週の予定を立ててみたり考えたり [#f947ba1e]
水内先生から
-銅谷先生
--現在熊谷先輩のやっている「気の利く行動」を前にやってい...
-ワイヤー駆動機構でn自由度動かすにはn+1個のワイヤが必要
-逆運動学は実際に動かしてやってみるとわかる(背骨ロボット...
見つけた!→[[柔軟性可変な脊椎構造を有する多自由度全身行動...
博士論文って,すごい….
-状態とアクションを連続にするのに工夫が必要
-サンプルプログラムを見て具体例を考える→それは本当に学習...
----
文献講読全体発表を見て
-配色には気をつける(場合によっては全然見えなくなる)
-質問が出しづらい場合があるので,まとめスライドがあるとい...
-時間が近づくと座長が「あとどのくらい残ってるんだ」とヒヤ...
-動画を見せる場合は環境依存があるかもしれないので,ちゃん...
-詰め込むよりも,わかりやすさ重視
----
やるとよさそうなこと(優先度が高い順)
-環境や状態が何か把握する
--矢野先生から頂いたpythonのプログラムを実際に動かしてみ...
--論文中のLittle Dogの例には言及されていないので,書いて...
-
考えている
-先生の方針が違っても,両方考慮していけば問題なさそうだ.
あくまで方針は方針であって研究をするのは自分なので,良い...
知らず知らずのうちに,考え方が同じでないと一緒に研究する...
方針が違うだけあって要求される部分も(少なくとも今は)違...
-具体的な話として,仮にPI^2アルゴリズムの改善が研究として...
-抽象的な研究とは,広く応用できる↔終着点を見失う
-どういうスタイルでやっていくのが私にとって一番よいのだろ...
平日は9~10割頑張って土or日はきっちり休む,一週間で8割頑張...
一般には毎日8割であるとよさそうだが,私の場合は性格の問題...
※頑張る≠成果は絶対に忘れないこと.仮に頑張ることがあった...
----
-PI^2の動画
[[Learning of Closed-Loop Motion Control - YouTube:https:...
PI^2だと思ったが,PI^2-01というちょっと違うアルゴリズムら...
--[[Learning of Closed-Loop Motion Control:http://www.adr...
元の論文.Introductionにモデルフリーやモデルベースのこと...
--[[ゼミナール発表:http://isw3.naist.jp/IS/Curriculum/09/...
論文とかそれっぽいのではなく,そこらへんに落ちてた資料だ...
**2016/5/29 研究発表会用のスライド作成中 [#i215075c]
PI^2が理解しきれていない!まずい!
-[[policy_learning - ROS Wiki.:http://wiki.ros.org/policy...
ROSにも組み込まれていたのか….
-[[GPU based Path Integral Control with Learned Dynamics:...
タイトルしか読んでいない;GPUを使うんだね.
-[[An Iterative Path Integral Reinforcement Learning Appr...
平面ロボットアームとリトルドッグの実験のほかに,phantomの...
-[[Reinforcement Learning for Manipulation:http://www.ros...
ROSの資料っぽい.めっちゃわかりやすいぞ!
-[[Variable Impedance Control:A Reinforcement Learning Ap...
PI^2の特徴がまとまっている.
**2016/5/28 研究発表会用のスライド作成中 [#tcaf148b]
スライドの構成は
PI^2の特徴(他のアルゴリズムとの違いも言えたらよい)→モデ...
今日中にPI^2の特徴をまとめて,明日中にモデルを生成する利...
正直PI^2のイメージが説明できるほどわかっていない.
文献講読用の論文はざっくりしか読めていないが,残っている...
なので,ひとまず前に頂いたPI^2についての参考用の論文を読...
-[[強化学習における Support Vector Machine を用いた状態一...
連続空間はどういうものなのか説明がある.
-[[強化学習を用いた高次元連続状態空間における系列運動学習...
**2016/5/27 いろいろ考えた [#sd1b6845]
やること
-PI^2の論文を読みきる
-新規性と有用性について思い出しつつ考えつつブレインストー...
新規性と有用性
-PI^2アルゴリズムの良いところを述べる(そういえば今までの...
PI^2アルゴリズムの良いところは元になる論文で述べられてい...
→その改善として本研究がある→それはおそらく今までされてい...
--「他の方法でもそれはできるのでは?」という質問が出る状...
→そうなると「このPI^2アルゴリズムはこれこれこういう特徴が...
↔︎でもPI^2アルゴリズムを選んだ理由が必要になるのでは? ...
↔︎でもその手法の価値は適用する目的によって変わってく...
↔︎つまり,それが役に立つ目的を与えなくてはならない.
↔︎でもそれはまだわからない.やってみないとわから...
↔︎本当にそうか? どのくらいの精度でどこまで実現...
➡︎PI^2の特徴と,モデルが定まると嬉しい例について考えてみ...
(文献講読的内容はPI^2ができるまでの経緯だから,もしかし...
--研究テーマとして挙げられるのは状態遷移モデルの推定だが...
ひとまずは環境に対応できることであるがそれ以外にもありそ...
-応用できる範囲が広いのが有用性にあたる.とはいえ具体例を...
-ツッコミどころとして「どうして最初からモデルベース学習を...
ここもPI^2の特徴から何かいえると思う
強化学習について
-"penalize"と"panelize"を読み間違えていた…
ずっと「パネル化」ってなんだよと思っていたが,「ペナルテ...
もっというと"panelize"という単語は存在しない.これはひど...
研究についてのひとりごと
-近藤研に行ってパソコンや資料を回収してから水内研にお邪魔...
近藤研の同じ部屋の人の中で私は割と長く研究室に居る方だと...
-今週は3日くらい(朝)〜昼:水内研→夕方〜夜:近藤研という...
(朝)〜昼に水内研にいると人が多くてやる気になる&お昼ご飯...
自分の研究室にいた方がいい日以外は,そういう風にしていこ...
-たぶん私が矢野先生の考えをよくわかっていないというか,人...
これはどちらの先生にも申し訳ない….今思うと,水内先生に報...
それと,今までなんでもそのまま聞いてしまいすぎだったので...
考えているうちに,どうしてそれが良さそうだと思ったのかも...
-水内先生から「矢野先生の考えていることそのままじゃなくて...
-私としては手法ベースの上で実用できる形のものにしたいから...
でもその考え方って目的寄りなんだよね.土台が目的の手法み...
私が好きな高知工科大の論文はそんな感じだった気がする.2年...
-ふと水内研の研修会で聞いたNAOとルンバの共同作業の研究を...
「メタ視点」(?)
-私は手法ベースの研究は専門の人には価値がわかりやすいが専...
だからといって目的ベースの研究の方が良いのかというと,全...
手段ベースだと手段だけに終始して適用できる目的がなくなる...
…いろんな研究者の方のご意見を聞くといろいろ考えられて面白...
-なんというか,目的ベースが即効性の研究だとしたら,手法ベ...
読むと「なるほどー」って言えそうな資料置き場
-[[多次元状態-行動空間での強化学習:http://sysplan.nams.ky...
-[[状態空間の部分的高次元化手法を用いたマルチエージェント...
-[[高次元連続状態空間における強化学習 -局所重み付き回帰手...
LWPLS: Locally Weighted Partial Least Squares=局所重み付...
中身を見るとモデルフリーの価値関数ベースの強化学習をして...
-[[強化学習のためのParticle Filterを用いた連続行動空間表...
連続空間はどういうものなのか説明がある.
ぱらぱらーと見ていると,ε-グリーディ法とか聞いたことある...
たぶんその辺のレイヤがまだわかってないので,まだ何か勘違...
**2016/5/26 方針と今日やったこと [#ia8854db]
方針
-定例研究会@水内研では2回目の文献講読の内容と絡めて研究テ...
-PI^2の論文を「ざっくりと」読んでみる
よくわからないが苦しい.とにかく,なるべく人に迷惑をかけ...
----
今日はPI^2の論文を訳していた(訳さないと読めない人).1回...
**2016/5/25 大学院について&メモ [#t2fa7ec6]
大学院について,ときどき聞かれるのでメモしておく.
私はS科の大学院に行く予定で筆答免除は通った気がする(結果...
しかもGPTと5分くらいの%%めっちゃ適当な%%面接だけ(本当は...
理由としてはだいたいこの2つ.
-研究テーマとしてロボットを絡めたいと考えているが,S科の...
本来なら理論研究だけで終わるようなテーマを,役立つアプリ...
-大学院の授業としてそもそもS科の方に興味がある/興味のある...
----
やったこと
-質疑応答の記録を整理した(他の研究室よりめっちゃ多くない...
-昨日の続きで「目的関数が未知」とはなんなのか,考えてみた
----
矢野先生から聞いた事
-内部モデルの学習の解釈が違った
歴史を知ることは面白い
-ワットの論文
蒸気機関のガバナ
安定性解析
イギリス産業革命の頃:1800年くらい?
FB制御
-1940年代に現代制御
-レター→ジャーナル→editorへのレター
アカデミア
戦争
物理・制御工学
-確率微分方程式は伊藤先生
公演で当時の話とかいろいろ面白い話が聞ける.
-区分線形モデル,NNも
-DeepLearningは教師なし,クラスタリング
-DeepLearningはNNは数学的でないとはいえない
繰り込み群
-経路積分
ロールアウトは
-HMMでロボットの運動制御…
関節空間(速度など)東大?の中村先生
比較して良い部分と悪い部分はそれぞれ絶対ある
適材適所
-認知学習:安西先生
-policy implibmentの手法
50dof関節の腕をあるgoal positionの比較(高次元(=R^nのn...
題材として選んだ理由は,制御と相性がいい&数学的に面白そ...
高次元状態空間で学習→多くあるが,それとtheodoaの研究のど...
目的関数の変化により柔軟性が増す
=通過するポイントを変えたときに状態遷移モデルを学習し直...
先行手法と比較したときにどちらが良いかはわからない.
アプリケーション化するときによくないものであったらそのと...
-HJB方程式あたりは
Policy Functionは連続時間で線形関数(LBF)の重ね合わせで...
HMMは離散時間(高速さなどの性能はわからない)
ロールアウト生成:アップデート→ノイズ付け足し→入力を見て→...
-論文が発表された時点ではPI^2で制御されていた?
-卓球ロボット:画像が入力,出力が関節トルク(ポリシーサー...
→これらによって評価したい
-rewardがあるかないか
目的関数を推定するのが流行っている
-ILをHMMを使って解くこともできる
DMPもILで使われてきた手法
-ILは流行り
-theodoaの論文は全体を見渡すと綺麗だし,拡張性も高そう....
**2016/5/24 「目的関数が未知」とはなんなのか [#g338a8a1]
強化学習についてのひとりごと
-一歩引いてみると「これは何の役に立つか」がわからない研究...
後付けでもいいから,自分含めみんなが納得するような用途を...
-もうちょっと強化学習について理解しないと自分のやる研究テ...
聞いたことやわかったことをまとめるためにも一旦wikiの強化...
入力しても出力できなければわかったことにならない.
-モデルフリー学習の中の"Policy Search"とのことだが,私は"...
だって,強化学習の目的は方策の探索であり,"Policy Search"...
-"Policy Search"と"Policy Update"のニュアンスの違いが気に...
-どうして"Value-Based RL"で強化学習と言うのに,対になる"D...
前にslackに貼って頂いた画像を見ると確かに"learn"しないで"...
-Reinforcement Learning of Motor Skills in High Dimention...
健康について
-自転車通学に使う体力を考えると,睡眠時間は8時間くらい取...
だから体調を崩したりするのか?
今までは,6時間寝ておけば問題なかったのに.
-栄養を摂取するとめっちゃ元気になる.これでぐだぐだする悪...
--自分の悪循環として考えられるストーリー
朝起きられない(つらい度up)→家を出られない(つらい度up)...
-スタンド扇風機みたいなのが欲しい,ハードオフあたりで探し...
強化学習や最適制御の論文を読むポイント(たぶん)
-状態・行動・時間がそれぞれ連続か離散か
研究テーマを完全に理解するまでの方針
+文献「線形ベルマン方程式に基づくロボット制御」との違いを...
+文献「Reinforcement Learning of Motor Skills in High Dim...
目標は金曜までに理解すること.土日でスライド作って月曜に...
直接先生に聞いたほうが早いのかもしれないが,調べればわか...
今日の午後に概要やスライドについて提出前の最終チェックを...
うっかりした….
----
水内研wikiで
#ls2
を使ったら500エラーが出て,そこだけコメントアウトしたら直...
なんでだろう.
**2016/5/23 水内先生&文献講読&研究テーマ [#xcb98963]
水内研の定例研究会を受けて
-何のモデルなのか結局わかってなかった,状態遷移モデルと報...
-システム同定といえばHMM
-実際の例(リトルドッグや自律分散ロボット)で考えてみて,...
なにが環境で状態で行動なのか?
--あまり理解できていないのにうまくいく気がするのはなんで...
とても危険だしきちんと理解しない最悪の場合詰むよなあ.
--とりあえず1回,把握していることをスライドとしてまとめて...
このままだとまずいし,場合によっては他の手法も考えなくて...
-今日で文献講読が一区切りするので,研究テーマについてちゃ...
-&color(white){常に私に突っ込まれポイントがあるので,心が...
-もうちょっと水内研にも存在したいので,それぞれで人の居そ...
----
文献講読発表の感想
-質問されると慌てるのをなんとかしたほうが格好いいよね
-水内先生から研究発表会のときに聞いた話(OpenRAVEでは6自...
それ以外でも,水内先生や水内研の方々から聞いた話で「この...
-趣味に近いことを研究にすると,質問の対応がしやすそう.
趣味なら最新の情報を調べたくなるし,説明もノリノリででき...
----
わかっているようでわかっていないのが一番怖いし,水内先生...
ので,ひとまず一見似ている研究の[[線形ベルマン方程式に基...
研究テーマの決定に向けて必要そうorやりたいこと
-背景や目的の理解
-周辺の既存研究の把握(その既存研究について説明できる程度...
-実装して試してみる
**2016/5/22 スライドを修正した [#n55a43b7]
研究室に行こうと思ったが,力尽きていた.家に居るとぐだぐ...
ゼミや授業など行かないといけない理由があれば多少無理して...
**2016/5/20 スライド修正メモ [#k817a58c]
-環境は注目している状態空間
状態空間の遷移の仕方
-モデルは状態空間の遷移のモデル
-特徴空間=状態空間=行動空間
inputが特徴化される
Deep系は特徴量学習を行うようなもの
-シナジー(最小単位の重なり)=特徴量学習の結果,得られた...
状態空間:見せていく中で特徴量学習
行動空間:動いていく中で特徴量学習
-先に最適制御
方策関数と状態空間ダイナミクスがわかっていない
-モデルベース
モデル(微分方程式)も学習.
報酬関数も学習→最適制御
価値関数=あるポリシーを取ったときに累積報酬和がどうなる...
報酬とダイナミクスからベルマン方程式から求める
-モデルフリー
価値関数Qを推定=報酬関数
モデルを学習しない
ベルマン方程式の解を直接学習=状態価値関数の学習
環境のモデルの予測はいらないし,報酬関数もいらない.
-ポリシーサーチ
価値関数の学習を行わない.
%%
-スライド
「環境のモデルの推定(学習)を行って」
-POMDP
実際の状態に近い
例:モデルベース
観測方程式を通した
hがわからない
-MDP
はy=x
-強化学習
目的関数,制御ベクトルがわからない,状態遷移モデル(状態...
=環境のモデルがわからない(新しい環境のときなど)
-状態遷移モデルが
--微分方程式のときはガウスノイズで言えて,昔から研究され...
--差分方程式は時間方向に離散
--確率差分(微分)方程式は$+\epsilon$
--確率分布モデルのときはガウスノイズに限らない.
---コルモゴロフが確率論を定義
確率測度:積分すると1
-J:
目的関数(これを最適化したい),
評価関数(GAなどの探索をしたとき,後から評価をするときの...
-確率微分方程式なのでJ
-期待値が絶対ではないが,ベルマン方程式が解きやすい
が恐神さん2010年NIPSで発表したベルマン方程式の拡張を行っ...
-状態方程式=動力学モデル
観測方程式=運動学モデル
(近藤先生に聞いてみる)
-最適制御→[モデルを使わないロボット学習]→内部モデル→[モデ...
-内部モデルなしで強化学習
-内部モデルをそのまま使う以外の方法,逆強化学習などを利用
--関節角度が決まらない問題も
-内部モデルを考える必要をなくしたい→強化学習
-「なぜ学習を使うのか?」
制御の枠組みの実直な方法だと大変だよね
「内部モデルの作成」→「内部モデルの学習」
-「自由度>軌道の次元のとき」は削除(なくてもよいし,むし...
-最尤推定:オフライン
ベイズ推定:オンライン
-適当な入力→出力のペアを見る
入力と軌道のペアの学習…
-順運動学を学習して局所線形モデルを作った.このとき逆運動...
-順運動学モデルはBLWRで学習される
y(タスクスペース(目から見て))とqの関連付け
-順モデルから逆モデル
-(大塚先生参照)ベルマン方程式を求めるまでが動的計画法な...
-「最適解uを求める」のほうがわかりやすい
方策が確率的なのが$\pi$(生き方みたいなもの.だいたいこん...
$\pi\in u$
-大域的な最適な$u_k$が求められる
-全探索なので$\bm x$の中身が増えれば増えるほど,ベルマン...
-ベルマン方程式の左辺は$x_k$
-前半:理想的な状態→後半:モデルが不完全なとき
-完全であると仮定すると,動的計画法でベルマン方程式が求め...
-wiki「強調した」→「強調してきた」
-動的計画法あたり
--ランダムな行動はADP(近似動的計画法)のことを言っている...
--格子は区分線形の区切りなのでは
-スライド修正…「解適合格子法」はなくす
-軌道最適化
--「軌道最適化が制御則を求めずに」は作り込みの動作のこと...
-軌道
--状態xの時系列データ
--<ー>のところは消してよさそう
--入力の一連の流れを一単位にして良いところをみて変化させ...
-保証できないは削除
-今も軌道ベース推しとは限らない
-u_kを試してx_kを見てどんどん良くしていく.
縦軸Jでヨコ軸u
-方策勾配法の実例→モデルフリー学習(方策勾配法)の実例
----
スライドの修正メモ
-P.5
P. 20-29のようにスペースを空けて,ハイフンにする
-P.13
文章の修正
ポリシーサーチは消す
-P.18
状態方程式と観測方程式に力学の話をほそく
-P.19
例を消す
座標変換が必要なことについて説明(モータの角度がわかる必...
補足:運動の変換の話(順モデルは楽だけど解析的にはつらい…)
実例から,区分線形モデルで近似すれば順モデルを求めれば逆...
近似について考えるのは重要.
-P.22
文章の修正
-P.23
いうこと「最適な方策を求める方法としてベルマン方程式を解...
-P.25
動的計画法でベルマン方程式ができる
uを求めるニュアンスに文章を修正
(ベルマン方程式disのためにモデルベースの章で説明している)
-P.26
P.25とかぶるところは省略して,次の「次元の呪い」について...
uを求めるニュアンスに文章を変更
-P.28
次元の呪いの解決策
解適合格子法を削除
ランダムな行動選択→近似的な動的計画法(ADP=Aproxi Dy Pro)
状態xの時系列データ
動的計画法による…削除
x_kに対して,ひと続きの制御入力u_kをいくつか試して局所探索...
軌道→軌道に対する制御入力
-P.30
修正
-P.31
安全が保証できないのは消す
…手に負えない→前に説明したのと同じように,状態が多いと「...
-P.35
次元の呪い
-P.37
高次元空間のうんぬんとか,新しい技術の紹介など
**2016/5/19 スライドの修正 [#lc96b4a1]
深く眠れない理由がわかったかもしれない.
サーバ機が寝室にあってうるさいせいかもしれない.
とりあえず遠くに隔離したので,しばらく様子を見る.
----
ただただ,スライドを直していた.
メモはノートに手書きで書いていたので,あとで上げる.
**2016/5/18 動けなかった [#ldae5bb3]
ときどき動けない日があるが,今日もそうだった….
前に動けなかったのは5/3と4/20と4/23と4/30かな(日誌から確...
今までは大丈夫だったのに,今年度に入ってから動けなくなる...
つらいことは何もないのに,本当に寝る以外のことを何もした...
授業やロボットのデバッグ日みたいに,どうしてもその日にや...
あと最近,深く眠れない感じがあったので,そのせいもありそ...
このままじゃちょっとどうしようもないので,とりあえず健康...
体調を崩しがちになってからは,ちゃんと野菜を食べたり,運...
**2016/5/17 スライド見直しと先生から [#k0756421]
今日はスライドの見直しをしていた.改めて見てみると,おか...
明日も引き続き見直す必要がありそう.
----
-方策オン・オフはそれぞれオンライン学習かオフライン学習か...
-スライドの改良ってキリないね.どこを突っつかれても大丈夫...
もしかしてめっちゃ言ってる「関数近似」って非線形関数を線...
それならつじつまが合うぞ.
-どうしてモデルベース学習の前に「内部モデルの学習」につい...
最適制御するには内部モデルは必須だし,成り立ちの流れから...
最適制御したいけど,モデルがわからない→内部モデルを学習し...
根っこからたどると古典制御から語れるのかな? 気になる.
(どんなことも「こういう理由があってこうなった」というの...
-モデル学習っていうのはおそらく,強化学習よりも最適制御の...
ので最適制御側から辿った方がよさそう→似たようなもので「モ...
----
矢野先生曰く,金城先生の似てる感じの論文は目的関数が既知...
強化学習は目的関数もモデルも未知,最適制御は目的関数もモ...
なので私がこれから読むとしたら,システムダイナミクスにつ...
----
近藤先生から
-研究のイメージをつかむために,実際に強化学習を動かしてみ...
【この前,矢野先生にいただいたpythonのプログラムを動かし...
-概要は1ページでまとめなくてはいけなかったはず
(これで3人の先生全員に研究をどう進めたいかを伝え終わった)
**2016/5/16 メモなど [#db590a26]
矢野先生と水内先生は研究者として方向性が異なると思う.
いろんな研究のスタイルがあるのがわかって面白いが,とても...
現在の私の理想は「情報」的な手法を「機械」的に応用させる...
うまい具合に両立できるように考えていきたい.
----
水内研の定例研究会を受けて.
-研究テーマを「自分のものとして」理解するためには狭く深く...
-これまで「これをやることで何がいいのか」という観点でばか...
たしかに汎用性が高いということは,それだけいろいろな人に...
-提案されたテーマだと,受け身になってしまってよくないし,...
ただ,これまでそういう方向性で研究してきた先生のほうがテ...
たぶんそれはそうなんだけど,それ頼りじゃだめだよね.わか...
-とりあえず自分なりに他の手法も調べてみる.
----
前半組の文献講読の発表を聞いて.
-予想される質問を考えておいて,その答えを準備しておく必要...
-自分のスライドを読み込んで,論理の飛躍が無いか確認
-方策勾配法の例を出すのでそこら辺をきちんと整理しておく
----
矢野先生から
-kaphenがHJBの線形化を初めてやった.
-Z-learningはtodorov
-藤本健治さんの[[藤本 健治(FUJIMOTO Kenji) _ 京都大学 ...
-なぜガウシアンノイズを考慮して方策を求めることができるの...
ノイズは環境から得られるものなので
--ガウスノイズの再生性
ノイズキャンセリングみたいな
--機会制約も使えるのではないか
-「モデルフリーをモデルベースに」の詳細
言い方は違うが,システム同定
入力にノイズを含めてそこの応答を見る
強さは速度が速いこととモデルを使い回しできること.
弱さはモデルを覚えるのに計算・メモリコストがかかる.
-軌道は状態方程式で表されるようなxの集まりのこと
xはよく位置であるし,確かに軌道であるなあ
-「モデルフリーをモデルベースに」で本当に同じような先行研...
SLAMとかmarkerless motion captureなどと組み合わせても面白...
-[[ノーフリーランチ定理 - Wikipedia:https://ja.wikipedia....
-[[醜いアヒルの子の定理 - 機械学習の「朱鷺の杜Wiki」:http...
**2016/5/15 文献購読の概要を書いた [#gcbc20ab]
今日は研究室のBBQだったので何もできないかと思ったが,案外...
サーベイ論文なので,「主な論文」を書かなくてはいけないの...
とりあえず,phantomとlittle dogについて詳しく書かれている...
ひとまず一通り文献購読の準備はokかな?
まだ喋る部分のカンペは書いていないが,正直いらない気がす...
**2016/5/13 強化学習のスライド読み合わせ&方針 [#ha1c380a]
廣谷くんのスライド発表を聞かせていただいたので,そのメモ.
-なんだろうポイント
MDPとは
マルコフ・ディシズン・プロセス
ADPの手法がFVIとLSPD
LSPIが従来手法
ポステリア=事後分布
-P.2
「強化学習とは」の説明
文献購読とは翻訳することなのか,解説することなのか?
知らない人もいるのでわかりやすく説明する.
【私のスライドも最適制御という表現を使おう,今は何も言っ...
-P.3
どのタイミングで「?」を出すか?
問題のテーマ・解決したい部分で「?」を出さない
「効率的」は評価関数次第なので,はっきりとしないので安易...
速いことが良いか,正確なことが良いかは課題によって異なる.
言葉はなるべく合わせると良い.モデルを「用いる」・「与え...
-P.4
前のスライドとのつながりが難しい.
前提知識としての事後分布なのだが….
モデルについての説明を前に加えるとよさそう?
$\mu^*=\rm {argmin}_\mu KL[\bm P|\bm Q]$
モデル分布$P$を真の分布$Q$に近づけたい.その手法のうちに...
-P.5
変数の説明にベクトルとか何次元とか整数とか確率分布とかち...
$\bm x = f(s)$って何? わかりにくいから簡単にしてしまおう.
【関連する情報は近くに置くとよさそう(ページを変えるとわ...
-P.7
方策オフがオフライン・方策オンがオンライン
結論から述べるとわかりやすい.
ヒストリーの中に報酬の中に含まれていると解釈できる?
確定的な報酬関数なので全探索すれば得られる.一回取ればそ...
最適制御的な解き方=ADP
-P.9
トムソンサンプリング? よくわかんないけど,なんかいいらし...
トムソンサンプリングは一回だけサンプルすること.詳しくは...
数式には注釈を入れたほうがわかりやすい.
-P.10
ADPに2種類ある.
ちなみにADPは近似手法.【私の方の文献にもちょろっと書いて...
LSPIに学習率がある?
グラフの塗られている部分は90%までの信頼区間=ステップ数の...
90%の確率でその範囲に入るということかな?
小さいほうが,ばらつきが少ない.
-P.14
専門用語は使いすぎない.【うまい具合に色分けするとわかり...
なくても意味の通る分は省く.
-P.15
同じような比較をするとわかりやすい.
-P.16
「状態空間が」連続
効率的な探査・データが使えているとは?
**2016/5/12 exiiiの方がいらっしゃった [#z3fb4ebf]
今日は,[[exiii:http://exiii.jp/]]というベンチャー企業で...
印象に残ったことなどメモ
-dmm Akibaにオフィスを構えている
-メンバーはハード・ソフト・デザイナーの3人+インターンの...
--近藤さんは大学では義手の研究をしていた
--SONYに就職→趣味として仲間とコストやデザインを重視した義...
-パーツは基本的に3Dプリンタで製作
-CADデータやマイコンのプログラムはオープンソースで公開し...
-フォトリフレクタで筋肉の厚みの変化を計測して義手を操作↔︎...
--シンプルすぎるのでは?と思ったが,想像以上にそれっぽく...
--でもやっぱり筋電の方が反応が速そう
----
いかにも「現代のものづくり」という感じがした.
デザインも重視というところの思想がwhillと似ていると思った...
デザインと工学を結びつける流行があると思う.
----
[[James Dyson Award:http://www.jamesdysonaward.org/]]
James Dyson Awardという国際エンジニアリングアワードがある...
日本語で説明されているページ→[[「ジェームズ ダイソン アワ...
これはexiiiの方が教えてくださった.
「ロボ研にも宣伝しといてー」ってチラシをいっぱいもらった...
**2016/5/11 研究テーマと強化学習の補足 [#m4a604bc]
最近(強化学習ベースの場合の)研究について不安に思うとこ...
-研究テーマが自分の手元にない
--先生も考えてくださっていた(前に伺ったお話だと強化学習...
--実際に強化学習について勉強してみて思ったのは,自分で考...
-本当に強化学習を選ぶのがよいのかわからない(以下,完全に...
--人間の調整次第な「学習」というものがとても嫌いなので,...
--あくまで強化学習は手段であり,いくら改良したところで,...
-理想はどこまで追求できるのか?
--どうしても手段ベースの考え方になってしまうが,私は実際...
理想は,理論の改善の結果が実際のアプリケーションとして実...
私はそのアプリケーションとして不整地運搬ロボットを考えた...
それ以前に強化学習を手段として選ぶのにふさわしい課題って...
評価(具体例:前に進むと報酬+,後ろに下がると報酬ー)は...
卒業研究だと実際のアプリケーションの実装までいけない可能...
後付けでもいいから,不整地運搬ロボットが強化学習を使うの...
すごく雑な話だが,何らかの形で不整地運搬ロボットにつなげ...
----
-パワーポイントのmac版は数式が文字化けするが,windowsに文...
なので安心していい.
-来週あたり近藤先生と個別ゼミをして,文献購読スライドや概...
----
矢野先生より
(雑なメモになってしまった;;)
-逆強化学習は報酬関数の推定を行う
-統計的学習:データ分析
モデルを絞り込むということは,探索する空間を絞り込む
-人間の介入も経験則に基づくものと,根拠のないあてはめがあ...
-PI^2は根拠のない当てはめが見られる
-最適制御or強化学習or逆強化学習or模倣学習
-最適制御のデメリット
人間の経験に基づいて,評価関数・行動・状態・ダイナミクス...
-第一原理モデリング:物理モデルでごりごりとモデル化([[体...
量子コンピュータなどミクロなものはモデル化できるが…
-↔︎統計力学:平衡な線形,不平衡な線形,平衡な非線形,不平...
-物理モデルなどでごりごりするのは,ハードサイエンスという...
-モデル化誤差:真の分布と予測分布の誤差
-向き・不向き
評価関数・モデルを記述するのが大変なとき,IRL/RLを使う.
RLは状態と行動と得られた報酬のセット
状態遷移モデルfが既知である場合,モデルベース
IRLは統計的報酬モデル
-Value-based RL:報酬関数を推定する
Policy-based RL:方策を直接求める
-IRL/RLを使ってもいいけど,それを人が評価を与えてしまえば...
という反論もある.
-最適制御はモデルを用意しないといけない.
-モデルが変わりやすいときに,強化学習は強い.
-ゴールドリブン,目的ベース【一般に受けるイメージ】
-シーズドリブン,手段ベース【専門家に受けるイメージ】
抽象性の高い手段であれば,いろいろなアプリケーションに適...
-模倣学習:人とロボットのコミュニケーションに適用できそう
-deep RL: googleがやっている
PFNという会社も
-HJB方程式で制御$u$を代数的に求められる→モデルフリーにで...
$\theta$を知らなくてもできる.
-モデルフリーだけどモデルも生成できる.
-ガウスノイズに限定しないと,HJB方程式が出しにくい(伊藤...
-ある特定の仮定をおくとHJB方程式が線形化できる.
-これはモデルフリー学習であるので,モデルも学習すると面白...
-システムのノイズはガウス性(HJB方程式を導きやすくするた...
前置きはガウスノイズでないと説明できないが,他のノイズで...
前提をtheodoaの論文をベースに,モデルを得る
-いいところ
--汎用性が高い
--モデルがすでにあるので最適制御が使える
-gがrの報酬関数
Rは累積報酬和で最適化する前の価値関数Vと同義?
Jは評価関数
方策が確定的=決定論的(Aの次は絶対にB)=すべての確率が1な...
・確率的(Aの次は80%でB)
無限時間だと$\gamma$が1だと発散する
方策が決定的,いろいろ試してよくしましょう,ができない
挙動方策・探索方策として使い分けられていた
-ハミルトン・ヤコビ・ベルマン方程式は,やがてハミルトン・...
-田中先生は物理の先生で若い
運動制御について考えている
最適制御とか
-累積報酬和と期待値が一緒
-まだわかっていないもののうち,気づいているもの解答編!
--離散より連続の方が良い理由(「次元の呪い」関連だとは思...
---[[強化学習ロボットSTUDIOUS[スタディアス]プロジェクト...
「次元の呪い」を回避できるのが一番のメリット.
代数的にもとめられたら良い.
C.9を解くと後ろ側から全部minで解いていかないといけない
次のstateに移る確率分布から,計算で求められる
行動uは確定的
$\rm min_u$と表す場合は確率的であって,$\rm min_\pi$と表...
Sのときある行動が発生する確率
確率的方策:確率測度を変える
状態遷移のモデルも確定的だったり,確率的だったり
-$u$は平均だけ操作
$\epsilon$ 分散は操作しない
これは(2)からわかる
細かい分散は考えていない
----
矢野先生の方向性
-シーズドリブンな研究がよい(theodoaのモデルフリー強化学...
-シーズが確立してから,アプリケーションを考えたい.抽象性...
私の方向性
-手法を重点的に考えてしまいがちなところはあるが,実用的な...
理論だけで止まりたくない.
**2016/5/10 わからないところを調べてみたり,Pi^2を読んで...
わからないところはそういうものとして置いておいて,一通り...
じっくり読みこもうと思ったが,たぶん1日悩んで終わりそうな...
-(D.4)から(D.5)は.一つ一つ代入していけばそうなるんだろう
-(E.5)のεに1を代入したら,よく見るHJB方程式になるね
-要は,動的計画法から導いたハミルトン・ヤコビ方程式がHJB...
例えるなら,コニャック地方で作られたブランデーがコニャッ...
----
1本目の論文スライドは今の所あと補足くらい.
隠しスライドとしてはこのあたり(実際に読んでみて突っ込ま...
-パラメータとはどういうものか?
-内部モデルの例:運動学って何?何が難しい?
これはwindowsでやりたいので,基本家でやろうかな.
----
-まだわかっていないもののうち,気づいているもの
--離散より連続の方が良い理由(「次元の呪い」関連だとは思...
---連続な空間を扱う方法として,離散化するというものもある...
だが関数を近似(線形アーキテクチャ)すれば,扱いやすくな...
[[強化学習ロボットSTUDIOUS[スタディアス]プロジェクト:ht...
「次元の呪い」を回避できるのが一番のメリット.
代数的にもとめられたら良い.
--ベルマン方程式やハミルトン・ヤコビ・ベルマン方程式につ...
---どちらも動的計画法から求めたもの
--gradientの求め方の詳しいところ【スライド△】
---[[Reinforcement learning of motor skills with policy g...
必要に応じて詳しく読んでみよう.
--Success matching principleについて【スライド△】
---まだわかっていない.
----
-「経路積分強化学習による猫ひねり運動の制御」
HJB方程式の線形化を用いたモデルベースな学習
-[[ロボット学習:http://www.orsj.or.jp/archive2/or57-07/...
-ほかの文献と見比べると,式(10)が違うし,変形してもそのよ...
**2016/5/9 スライドの改善 [#r618de67]
-方策の微分が求められると累積報酬和の期待値Jの勾配法が使...
--方策というのは確率的方策$p_\theta$ということ?
--あるいは聞き間違い?
このへんがよくわからなくなったので[55]を読んでみる
----
[[Reinforcement learning of motor skills with policy grad...
P.2の式(3)のあたりを読んでみた.
-定義
--$a_k$:時間に依存する重み要素($a_k=\gamma^k$など【見覚...
--$a_\Sigma$:正規化要素
--$r(\bm x_k, \bm u_k)$:報酬関数
--$H$:時間の範囲
-方策勾配法の(普遍的な)目標
報酬の期待値
\[
J(\theta)=\frac{1}{a_\Sigma}E\{\sum^H_{k=0}a_kr_k\}
\]
を最適化するため,方策パラメータ$\theta\in\bm R^k$を最適...
【つまりパラメータ調整ってことなの?あるいは$\theta$を方...
【確かに方策はパラメータ$\theta$の関数だし,$\theta$を改...
P.3の式(11)あたりを読んでみた.
-一番の問題は方策の微分の良い推定を得ることである.伝統的...
Table1とTable2を読んでみた
-Table1から言えるのは,Jの微分が求められる→θが最適化できる
-Table2から言えるのは,θの微分が求められる→Jの微分が求め...
-【結局最適なθを求められればいいのなら,Jの微分を求めない...
↔でもそれって次元が違う気がするし,そうせざるを得ないのか...
-こんがらがってきたのでスライドには載せなくていいか…
----
今日はwindowsを持って来ていたのでスライドの改善をしていた...
最低限は修正したので,あとは隠しスライドと必要に応じて肉...
最近昼間の眠気がひどい(特に食後)し,頭もふらふらするこ...
さほど寝不足というわけでもないので原因もよくわからない.
もしかしたら自転車通学が結構身体にきているのか…?
でも音楽を聞くとちょっと良くなるし,気分の問題もあるのか...
-そろそろ【?】のメモをまとめて先生に聞きたい
-研究の方向性…
**2016/5/7 昨日の続き [#x4864b1e]
矢野先生に教えていただいた論文
[[計算論的神経科学のすすめ─脳機能の理解に向けた最適化理論...
を読んでみる.
-そういえば評価関数って何だっけ?
前にも調べた気がするが,忘れてしまった.ざっくり調べてみ...
「経路積分強化学習による猫ひねり運動の制御」には,「評価...
\[
J_1(\tau_t)=q_e(\bm x_T)+\int^T_tq_i(\bm x_t, \bm u_t)dt\\
q_i(\bm x_t, \bm u_t)=q_s(\bm x_T)+\frac{1}{2}\bm u_t^T\b...
\]
「Learning Control in Robotics」には,「割引累積報酬の期待...
\[
J(\bm x_0)=E_\tau \{\sum^N_{k=0} \gamma^kL(\bm x_k, \bm u...
\]
「人工知能概論」には,「状態価値関数」として以下のように...
\[
V_\pi(s)=E_\pi[R_t|s_t=s]=E_\pi[\sum^\infty_{k=0}\gamma^k...
\]
「[[概要:http://ysserve.wakasato.jp/Lecture/ControlMecha2...
\[
J = \int^{t_f}_{t_i} L(\bm x,\bm u,t) dt
\]
これらのことから,最適制御の「評価関数」は強化学習の「割...
最適化したい関数的な.
とりあえず今はそういうことだとして読み進めてみるが,週明...
-なんというか,ベルマン方程式ってめっっちゃ単純…?
よくある漸化式の解法とそっくりだし,誰でも導けそう(初心...
-「ダイナミックプログラミングという名前の由来につ...
確かに動的計画法そのものとdynamic programmingってなんだか...
-Dの「評価関数には$u_N$が含まれないので」ってどういうこと?
--そもそも「ステップNにおけるcost-go-to関数」というのは,...
--「評価関数には$u_N$が含まれないので」は,「猫ひねり」論...
つまり,状態$x_N$まであるとき,入力$u_{N-1}$までで十分だ...
これも確認したい.
--仮にそうだとして,(D.3)が
\[
V_N[x_f] = \frac{1}{2}x^T_fQ_Nx_f+\frac{1}{2}x^T_NQ_Nx_N
\]
ではなく
\[
V_N[x_f] = \frac{1}{2}x^T_fQ_Nx_f
\]
となるのは,$x_{k+1}=Ax_k+Bu_k$から
\[
V_N[x_f] = \frac{1}{2}x^T_fQ_Nx_f+\frac{1}{2}(Ax_{N-1}+Bu...
\]
となって,Nを含む変数を含まなくなるからかな?
↔️いや$Q_N$がいるじゃん
(…思考停止…)
**2016/5/6 論文や聞いたことについて調べた [#k48c2a40]
日本語の資料を集めた(誤訳している可能性を考えると,基本...
-方策勾配法について
[[方策勾配法を用いたサッカーエージェントの学習~フリーキ...
-gradientの計算について
[[シミュレーションによる勾配推定の手法:http://www.is.tite...
[[各種離散化解析手法:http://www.civil.chuo-u.ac.jp/lab/ke...
-REINFORCEアルゴリズム
[[NIPS2014読み会で深層半教師あり学習の論文を紹介しました:...
-trajectory
[[自然言語処理における逆強化学習・模倣学習の適用:http://2...
trajectoryの日本語訳は「行動列」でよろしいのかな(軌道っ...
つまり,trajectory=行動$\bm a = [ a_1, a_2, a_3, \dots ]$...
そこから考えると,"the probability of a trajectory"はある...
-ハミルトン・ヤコビ・ベルマン方程式とベルマン方程式は別物
「…連続時間系ではHamilton-Jacobi-Bellman (HJB) 方程式を,...
[[線形化マルコフゲーム理論によるロバスト制御:https://...
-Lがuの2乗のときにHJB方程式が解析的に求められることについ...
[[ロボット学習:http://www.orsj.or.jp/archive2/or57-07/o...
そもそもLを仮定する時点でそれはモデルを利用していることに...
-つまり経路積分法を用いる方法には,モデルベースのものとモ...
おそらく「猫ひねり」の論文がモデルベースのもので,それ(...
--もうちょっと詳しく言うと,モデルベースの経路積分法のル...
[[ロボット学習:http://www.orsj.or.jp/archive2/or57-07/or5...
HJB方程式の線形化(線形の制御対象,かつ,報酬関数が$r(t)=...
→モデルベースの経路積分法
→モデルフリーの経路積分法,という流れかな.
-[[システム制御工学シリーズ 非線形最適制御入門|コロナ社:...
かゆいところに手が届く感じの良い本!
わからないところがあればこの本をめくると答えが見つかりそ...
--価値関数=最適コスト関数(optimal cost function)=cost-to-go
--ベルマン方程式は離散時間(P.71),ハミルトン・ヤコビ・ベ...
この本の中では,離散時間システムの最適制御問題に動的計画...
このことから,離散よりも連続のほうが計算機に優しい(意訳...
-まだわかっていないもののうち,気づいているもの
--離散より連続の方が良い理由(「次元の呪い」関連だとは思...
--ベルマン方程式やハミルトン・ヤコビ・ベルマン方程式につ...
--gradientの求め方の詳しいところ【スライド△】
--Success matching principleについて【スライド△】
----
-編集ボタンがスクロールに付いてきてくれると便利だなあ(誰...
-項目ごとに編集ボタンをつけたい.
**2016/5/4 文献購読(小) [#mdea8fab]
5/2の水内研短プロ発表会向けにざっくり作ったスライドを見な...
以下そのメモ.
----
P.13について
-$\theta$ではなく$\bm \theta$で固有パラメータという訳は不...
これは基本的には人間が調整してあげる部分
パラメトリックモデル:$\bm u$はガウス分布,シグモイド関数...
統計学的には「母集団の特性を規定する母数についてある仮説...
試験問題で言うと穴埋め式である程度枠組みが決まっていてそ...
逆に考えると,その枠組みが正しそうなものでないと,見当違...
ノンパラメトリックモデル:$\bm{u=Ax}$,パラメータ$\bm \th...
\[
u=\sum a_ix^i
a_i=1 (i=1)
a_i=0 (otherwise)
\]
であれば$a_1$が$\theta$になる.
統計学的には「母集団の分布型(母数)について一切の仮定を...
試験問題で言うと記述式で,自由に考えるような感じだね.
統計学的には「」の部分は[[パラメトリックな手法とノンパラ...
-$\bm \theta$は「温度パラメータ」など,一般に人間が職人技...
-文献中の(1)式の$\pi$の引数は$x$でなくて$y$であってよい(...
つまり元の式が
[エージェント:最適な出力$\bm y$を選んで環境に与える]
[環境:エージェントから出力された$\bm y$から状態$\bm x$を...
$\bm u$=$\pi(\bm x, t, \bm \theta)$
とすると,$y$であってよいというのは
[エージェント:最適な出力$\bm y$を選んで環境に与える]
[環境:エージェントから出力された$\bm y$から状態$\bm x$を...
$\bm u$=$\pi(\bm y, t, \bm \theta)$←[エージェント:環境に...
ってことだね.
P.15
-この論文の「ロボット学習の分類」は割と適当なんじゃないか...
P.16
-モデルベース制御はFF制御の傾向はあるが,モデルフリー制御...
--FB制御∈モデルフリー制御,イコールでは結ばれない(個人的...
-3分岐の図&説明はややこしいので削除して,slackの図を使う...
P.18
-模倣学習∈教師あり学習
-逆強化学習はReword=報酬を推定する,汎化できる
-模倣学習はRewordを設計しなくても教師がわかればいい.実用...
P.19
-ワンショット問題(遅延報酬問題)
ゴールだけ与えてあとはお任せ.動作の終端から経路を求める...
P.20
-解析的に求めると複雑…ロボットアームについては突っ込まれ...
-そもそもそんなに簡単に非線形関数のモデルが求められるのか
-p.20に制御の数式を持ってくるのもあり
-改善策:ロジックとして「頑張れば求められる,でも動かすの...
(飛ばしてしまったところに要点があった…!)
-逆モデルの学習について,手法は幾つかある
--最初に,先に模倣学習,逆強化学習をする
模倣学習の目的も「$\pi$を獲得したい」なので,これらによっ...
--自由度を殺す
P.28
-「ベルマン方程式が定義され」→「ベルマン方程式が成り立ち...
-「最適状態価値関数」→「状態価値関数を最適化」
-min…の式について,uが最適「解」でVが最適「値」
-Q:最適行動価値関数
ある行動xのときに状態価値関数xのQ(x,a)を最適にする
-uを全探索したくない
--適当に取る
--Lをある特定のものに定めてあげると,離散のまま解析的に解...
(P.29に書いてある)
-適応[32][33]
P.31
-強化学習というものは,「πを求めたい」という目的だけなの...
なのでTD学習やQ学習を知らなくても,新しい強化学習について...
これらは名前だけの説明でもいい.
P.32
-連続と離散
--ベルマン方程式を繰り返し解くことは次元の呪いを引き起こす
J_u=L+V
x=0~100が定義されているとして
離散:0,1,2,3,4,...,連続:0,0.000001,...
uが増えたとき,全探索すると「次元の呪い」
コンピュータにとって連続のほうが嬉しい=全探索はしたくない
--ベルマン方程式を使わないために連続な状態について考えた...
--TD学習とQ学習は大抵離散の問題を解く
-「連続空間に関数近似するときたくさんのサンプルが必要」は...
-軌道に基づいた最適化=policy search
-実際の解法
--シミュレーション内で最低限の準備をしてから実世界で(少...
--シミュレーション内でπを求めていく
--模倣学習で初期値を与えて,「局所」最適化(ほぼ最適化,...
-一般に状態量の軌道:(最適)入力のことをtrajectryという
軌道ベース=ポリシーサーチ
P.35
-みんな使いたがらないと言いたい?
今後の実際の用途:もっと高次元でおもちゃでない用途
長期的で自律的な学習能力を獲得したい
最後に
-所見を入れるとよさそう
----
強化学習の分類
-model based
-model free
--policy search
---experience data
Rewordがわかる
---demonstration data
状態とactionだけがわかる
---方策勾配法:下で詳しく
-方策勾配法
「方策勾配定理」
方策の勾配=微分が必要
--ベイジアン
--確定的方策勾配法
-Success matching principle
方策の微分は不要
--Power
--PI^2
備考
-theodoaの論文はモデルがわからないときの期待累積報酬の最...
-Vを学習する…TD学習
-廣谷くんの読んでいる論文つまりLGBL(Linear Bayesian Reinf...
-learning feature representations=特徴量学習
前処理にあたる.ロボットの場合,ピクセルの情報だけ.
これはレイヤごとに分けて考える.人間の認識に近い.
モデルベースとモデルフリーの違い
-モデルフリー:ベルマン方程式(ベルマン方程式はモデルがあ...
ここでいうモデルはコスト(報酬)関数Lと f
fを知っている,Lを知っているという状況はないことはないが...
モデルベース:ベルマン方程式を使ってVを求めたり,求めなか...
----
確率的直接勾配学習(Probabilistic Direct Policy Learning)
-Probabilistic Direct Policy Learningあたりをもっと突っ込...
-いろんなgradientを計算する方法がありますよー
--REINFORCE algorithm(固有名詞)…方策の中にθを入れると嬉...
--決定論的方策:1対1で定まる
確率的方策:確率分布に従う.ある程度ランダム
GPOMDPはREINFORCEの上位互換
--2次勾配法…2階微分も考慮
--確率分布の平均だけ動かすと楽になるよ
-方策勾配法は「次元の呪い」がおこりにくい
-ロボティクスでもてはやされている
-Probabilistic Direct Policy Learning
(4)をlikelyhood=尤度関数として扱うともっといろいろ広がり...
--いろんなアルゴリズムを使ってθを最適化できるね!
--HJB方程式をL=u^2にすると解析的に考えられて強化学習でき...
theodoaはモデルフリーでできる方法を提案した
first-order principles of optimal control theory = HJB方...
exploration noiseを使うと面白い
[75]がモデルベースの強化学習を構築したことには言及してお...
todorovモデルベースの強化学習,L=u^2しているが,離散の場...
-方策勾配法の概要をばばっと書くとよさそう
policyの微分が求められると累積報酬和Jの勾配法が使える
-尤度関数として使うと,もっといろいろできるよ
終了行:
[[宮下]]
#setlinebreak(1);
*目次 [#r333c4b1]
#contents
*2016年5月 [#ucc33320]
**2015/5/31 DMPがわからない [#u0d6acb6]
PathIntegralのプログラムを見ている.論文と見比べているが...
DMPという概念がわからない.
-[[dmp - ROS Wiki:http://wiki.ros.org/dmp]]
-[[戦略的創造研究推進事業 ERATO:http://www.jst.go.jp/erat...
**2015/5/30 今週の予定を立ててみたり考えたり [#f947ba1e]
水内先生から
-銅谷先生
--現在熊谷先輩のやっている「気の利く行動」を前にやってい...
-ワイヤー駆動機構でn自由度動かすにはn+1個のワイヤが必要
-逆運動学は実際に動かしてやってみるとわかる(背骨ロボット...
見つけた!→[[柔軟性可変な脊椎構造を有する多自由度全身行動...
博士論文って,すごい….
-状態とアクションを連続にするのに工夫が必要
-サンプルプログラムを見て具体例を考える→それは本当に学習...
----
文献講読全体発表を見て
-配色には気をつける(場合によっては全然見えなくなる)
-質問が出しづらい場合があるので,まとめスライドがあるとい...
-時間が近づくと座長が「あとどのくらい残ってるんだ」とヒヤ...
-動画を見せる場合は環境依存があるかもしれないので,ちゃん...
-詰め込むよりも,わかりやすさ重視
----
やるとよさそうなこと(優先度が高い順)
-環境や状態が何か把握する
--矢野先生から頂いたpythonのプログラムを実際に動かしてみ...
--論文中のLittle Dogの例には言及されていないので,書いて...
-
考えている
-先生の方針が違っても,両方考慮していけば問題なさそうだ.
あくまで方針は方針であって研究をするのは自分なので,良い...
知らず知らずのうちに,考え方が同じでないと一緒に研究する...
方針が違うだけあって要求される部分も(少なくとも今は)違...
-具体的な話として,仮にPI^2アルゴリズムの改善が研究として...
-抽象的な研究とは,広く応用できる↔終着点を見失う
-どういうスタイルでやっていくのが私にとって一番よいのだろ...
平日は9~10割頑張って土or日はきっちり休む,一週間で8割頑張...
一般には毎日8割であるとよさそうだが,私の場合は性格の問題...
※頑張る≠成果は絶対に忘れないこと.仮に頑張ることがあった...
----
-PI^2の動画
[[Learning of Closed-Loop Motion Control - YouTube:https:...
PI^2だと思ったが,PI^2-01というちょっと違うアルゴリズムら...
--[[Learning of Closed-Loop Motion Control:http://www.adr...
元の論文.Introductionにモデルフリーやモデルベースのこと...
--[[ゼミナール発表:http://isw3.naist.jp/IS/Curriculum/09/...
論文とかそれっぽいのではなく,そこらへんに落ちてた資料だ...
**2016/5/29 研究発表会用のスライド作成中 [#i215075c]
PI^2が理解しきれていない!まずい!
-[[policy_learning - ROS Wiki.:http://wiki.ros.org/policy...
ROSにも組み込まれていたのか….
-[[GPU based Path Integral Control with Learned Dynamics:...
タイトルしか読んでいない;GPUを使うんだね.
-[[An Iterative Path Integral Reinforcement Learning Appr...
平面ロボットアームとリトルドッグの実験のほかに,phantomの...
-[[Reinforcement Learning for Manipulation:http://www.ros...
ROSの資料っぽい.めっちゃわかりやすいぞ!
-[[Variable Impedance Control:A Reinforcement Learning Ap...
PI^2の特徴がまとまっている.
**2016/5/28 研究発表会用のスライド作成中 [#tcaf148b]
スライドの構成は
PI^2の特徴(他のアルゴリズムとの違いも言えたらよい)→モデ...
今日中にPI^2の特徴をまとめて,明日中にモデルを生成する利...
正直PI^2のイメージが説明できるほどわかっていない.
文献講読用の論文はざっくりしか読めていないが,残っている...
なので,ひとまず前に頂いたPI^2についての参考用の論文を読...
-[[強化学習における Support Vector Machine を用いた状態一...
連続空間はどういうものなのか説明がある.
-[[強化学習を用いた高次元連続状態空間における系列運動学習...
**2016/5/27 いろいろ考えた [#sd1b6845]
やること
-PI^2の論文を読みきる
-新規性と有用性について思い出しつつ考えつつブレインストー...
新規性と有用性
-PI^2アルゴリズムの良いところを述べる(そういえば今までの...
PI^2アルゴリズムの良いところは元になる論文で述べられてい...
→その改善として本研究がある→それはおそらく今までされてい...
--「他の方法でもそれはできるのでは?」という質問が出る状...
→そうなると「このPI^2アルゴリズムはこれこれこういう特徴が...
↔︎でもPI^2アルゴリズムを選んだ理由が必要になるのでは? ...
↔︎でもその手法の価値は適用する目的によって変わってく...
↔︎つまり,それが役に立つ目的を与えなくてはならない.
↔︎でもそれはまだわからない.やってみないとわから...
↔︎本当にそうか? どのくらいの精度でどこまで実現...
➡︎PI^2の特徴と,モデルが定まると嬉しい例について考えてみ...
(文献講読的内容はPI^2ができるまでの経緯だから,もしかし...
--研究テーマとして挙げられるのは状態遷移モデルの推定だが...
ひとまずは環境に対応できることであるがそれ以外にもありそ...
-応用できる範囲が広いのが有用性にあたる.とはいえ具体例を...
-ツッコミどころとして「どうして最初からモデルベース学習を...
ここもPI^2の特徴から何かいえると思う
強化学習について
-"penalize"と"panelize"を読み間違えていた…
ずっと「パネル化」ってなんだよと思っていたが,「ペナルテ...
もっというと"panelize"という単語は存在しない.これはひど...
研究についてのひとりごと
-近藤研に行ってパソコンや資料を回収してから水内研にお邪魔...
近藤研の同じ部屋の人の中で私は割と長く研究室に居る方だと...
-今週は3日くらい(朝)〜昼:水内研→夕方〜夜:近藤研という...
(朝)〜昼に水内研にいると人が多くてやる気になる&お昼ご飯...
自分の研究室にいた方がいい日以外は,そういう風にしていこ...
-たぶん私が矢野先生の考えをよくわかっていないというか,人...
これはどちらの先生にも申し訳ない….今思うと,水内先生に報...
それと,今までなんでもそのまま聞いてしまいすぎだったので...
考えているうちに,どうしてそれが良さそうだと思ったのかも...
-水内先生から「矢野先生の考えていることそのままじゃなくて...
-私としては手法ベースの上で実用できる形のものにしたいから...
でもその考え方って目的寄りなんだよね.土台が目的の手法み...
私が好きな高知工科大の論文はそんな感じだった気がする.2年...
-ふと水内研の研修会で聞いたNAOとルンバの共同作業の研究を...
「メタ視点」(?)
-私は手法ベースの研究は専門の人には価値がわかりやすいが専...
だからといって目的ベースの研究の方が良いのかというと,全...
手段ベースだと手段だけに終始して適用できる目的がなくなる...
…いろんな研究者の方のご意見を聞くといろいろ考えられて面白...
-なんというか,目的ベースが即効性の研究だとしたら,手法ベ...
読むと「なるほどー」って言えそうな資料置き場
-[[多次元状態-行動空間での強化学習:http://sysplan.nams.ky...
-[[状態空間の部分的高次元化手法を用いたマルチエージェント...
-[[高次元連続状態空間における強化学習 -局所重み付き回帰手...
LWPLS: Locally Weighted Partial Least Squares=局所重み付...
中身を見るとモデルフリーの価値関数ベースの強化学習をして...
-[[強化学習のためのParticle Filterを用いた連続行動空間表...
連続空間はどういうものなのか説明がある.
ぱらぱらーと見ていると,ε-グリーディ法とか聞いたことある...
たぶんその辺のレイヤがまだわかってないので,まだ何か勘違...
**2016/5/26 方針と今日やったこと [#ia8854db]
方針
-定例研究会@水内研では2回目の文献講読の内容と絡めて研究テ...
-PI^2の論文を「ざっくりと」読んでみる
よくわからないが苦しい.とにかく,なるべく人に迷惑をかけ...
----
今日はPI^2の論文を訳していた(訳さないと読めない人).1回...
**2016/5/25 大学院について&メモ [#t2fa7ec6]
大学院について,ときどき聞かれるのでメモしておく.
私はS科の大学院に行く予定で筆答免除は通った気がする(結果...
しかもGPTと5分くらいの%%めっちゃ適当な%%面接だけ(本当は...
理由としてはだいたいこの2つ.
-研究テーマとしてロボットを絡めたいと考えているが,S科の...
本来なら理論研究だけで終わるようなテーマを,役立つアプリ...
-大学院の授業としてそもそもS科の方に興味がある/興味のある...
----
やったこと
-質疑応答の記録を整理した(他の研究室よりめっちゃ多くない...
-昨日の続きで「目的関数が未知」とはなんなのか,考えてみた
----
矢野先生から聞いた事
-内部モデルの学習の解釈が違った
歴史を知ることは面白い
-ワットの論文
蒸気機関のガバナ
安定性解析
イギリス産業革命の頃:1800年くらい?
FB制御
-1940年代に現代制御
-レター→ジャーナル→editorへのレター
アカデミア
戦争
物理・制御工学
-確率微分方程式は伊藤先生
公演で当時の話とかいろいろ面白い話が聞ける.
-区分線形モデル,NNも
-DeepLearningは教師なし,クラスタリング
-DeepLearningはNNは数学的でないとはいえない
繰り込み群
-経路積分
ロールアウトは
-HMMでロボットの運動制御…
関節空間(速度など)東大?の中村先生
比較して良い部分と悪い部分はそれぞれ絶対ある
適材適所
-認知学習:安西先生
-policy implibmentの手法
50dof関節の腕をあるgoal positionの比較(高次元(=R^nのn...
題材として選んだ理由は,制御と相性がいい&数学的に面白そ...
高次元状態空間で学習→多くあるが,それとtheodoaの研究のど...
目的関数の変化により柔軟性が増す
=通過するポイントを変えたときに状態遷移モデルを学習し直...
先行手法と比較したときにどちらが良いかはわからない.
アプリケーション化するときによくないものであったらそのと...
-HJB方程式あたりは
Policy Functionは連続時間で線形関数(LBF)の重ね合わせで...
HMMは離散時間(高速さなどの性能はわからない)
ロールアウト生成:アップデート→ノイズ付け足し→入力を見て→...
-論文が発表された時点ではPI^2で制御されていた?
-卓球ロボット:画像が入力,出力が関節トルク(ポリシーサー...
→これらによって評価したい
-rewardがあるかないか
目的関数を推定するのが流行っている
-ILをHMMを使って解くこともできる
DMPもILで使われてきた手法
-ILは流行り
-theodoaの論文は全体を見渡すと綺麗だし,拡張性も高そう....
**2016/5/24 「目的関数が未知」とはなんなのか [#g338a8a1]
強化学習についてのひとりごと
-一歩引いてみると「これは何の役に立つか」がわからない研究...
後付けでもいいから,自分含めみんなが納得するような用途を...
-もうちょっと強化学習について理解しないと自分のやる研究テ...
聞いたことやわかったことをまとめるためにも一旦wikiの強化...
入力しても出力できなければわかったことにならない.
-モデルフリー学習の中の"Policy Search"とのことだが,私は"...
だって,強化学習の目的は方策の探索であり,"Policy Search"...
-"Policy Search"と"Policy Update"のニュアンスの違いが気に...
-どうして"Value-Based RL"で強化学習と言うのに,対になる"D...
前にslackに貼って頂いた画像を見ると確かに"learn"しないで"...
-Reinforcement Learning of Motor Skills in High Dimention...
健康について
-自転車通学に使う体力を考えると,睡眠時間は8時間くらい取...
だから体調を崩したりするのか?
今までは,6時間寝ておけば問題なかったのに.
-栄養を摂取するとめっちゃ元気になる.これでぐだぐだする悪...
--自分の悪循環として考えられるストーリー
朝起きられない(つらい度up)→家を出られない(つらい度up)...
-スタンド扇風機みたいなのが欲しい,ハードオフあたりで探し...
強化学習や最適制御の論文を読むポイント(たぶん)
-状態・行動・時間がそれぞれ連続か離散か
研究テーマを完全に理解するまでの方針
+文献「線形ベルマン方程式に基づくロボット制御」との違いを...
+文献「Reinforcement Learning of Motor Skills in High Dim...
目標は金曜までに理解すること.土日でスライド作って月曜に...
直接先生に聞いたほうが早いのかもしれないが,調べればわか...
今日の午後に概要やスライドについて提出前の最終チェックを...
うっかりした….
----
水内研wikiで
#ls2
を使ったら500エラーが出て,そこだけコメントアウトしたら直...
なんでだろう.
**2016/5/23 水内先生&文献講読&研究テーマ [#xcb98963]
水内研の定例研究会を受けて
-何のモデルなのか結局わかってなかった,状態遷移モデルと報...
-システム同定といえばHMM
-実際の例(リトルドッグや自律分散ロボット)で考えてみて,...
なにが環境で状態で行動なのか?
--あまり理解できていないのにうまくいく気がするのはなんで...
とても危険だしきちんと理解しない最悪の場合詰むよなあ.
--とりあえず1回,把握していることをスライドとしてまとめて...
このままだとまずいし,場合によっては他の手法も考えなくて...
-今日で文献講読が一区切りするので,研究テーマについてちゃ...
-&color(white){常に私に突っ込まれポイントがあるので,心が...
-もうちょっと水内研にも存在したいので,それぞれで人の居そ...
----
文献講読発表の感想
-質問されると慌てるのをなんとかしたほうが格好いいよね
-水内先生から研究発表会のときに聞いた話(OpenRAVEでは6自...
それ以外でも,水内先生や水内研の方々から聞いた話で「この...
-趣味に近いことを研究にすると,質問の対応がしやすそう.
趣味なら最新の情報を調べたくなるし,説明もノリノリででき...
----
わかっているようでわかっていないのが一番怖いし,水内先生...
ので,ひとまず一見似ている研究の[[線形ベルマン方程式に基...
研究テーマの決定に向けて必要そうorやりたいこと
-背景や目的の理解
-周辺の既存研究の把握(その既存研究について説明できる程度...
-実装して試してみる
**2016/5/22 スライドを修正した [#n55a43b7]
研究室に行こうと思ったが,力尽きていた.家に居るとぐだぐ...
ゼミや授業など行かないといけない理由があれば多少無理して...
**2016/5/20 スライド修正メモ [#k817a58c]
-環境は注目している状態空間
状態空間の遷移の仕方
-モデルは状態空間の遷移のモデル
-特徴空間=状態空間=行動空間
inputが特徴化される
Deep系は特徴量学習を行うようなもの
-シナジー(最小単位の重なり)=特徴量学習の結果,得られた...
状態空間:見せていく中で特徴量学習
行動空間:動いていく中で特徴量学習
-先に最適制御
方策関数と状態空間ダイナミクスがわかっていない
-モデルベース
モデル(微分方程式)も学習.
報酬関数も学習→最適制御
価値関数=あるポリシーを取ったときに累積報酬和がどうなる...
報酬とダイナミクスからベルマン方程式から求める
-モデルフリー
価値関数Qを推定=報酬関数
モデルを学習しない
ベルマン方程式の解を直接学習=状態価値関数の学習
環境のモデルの予測はいらないし,報酬関数もいらない.
-ポリシーサーチ
価値関数の学習を行わない.
%%
-スライド
「環境のモデルの推定(学習)を行って」
-POMDP
実際の状態に近い
例:モデルベース
観測方程式を通した
hがわからない
-MDP
はy=x
-強化学習
目的関数,制御ベクトルがわからない,状態遷移モデル(状態...
=環境のモデルがわからない(新しい環境のときなど)
-状態遷移モデルが
--微分方程式のときはガウスノイズで言えて,昔から研究され...
--差分方程式は時間方向に離散
--確率差分(微分)方程式は$+\epsilon$
--確率分布モデルのときはガウスノイズに限らない.
---コルモゴロフが確率論を定義
確率測度:積分すると1
-J:
目的関数(これを最適化したい),
評価関数(GAなどの探索をしたとき,後から評価をするときの...
-確率微分方程式なのでJ
-期待値が絶対ではないが,ベルマン方程式が解きやすい
が恐神さん2010年NIPSで発表したベルマン方程式の拡張を行っ...
-状態方程式=動力学モデル
観測方程式=運動学モデル
(近藤先生に聞いてみる)
-最適制御→[モデルを使わないロボット学習]→内部モデル→[モデ...
-内部モデルなしで強化学習
-内部モデルをそのまま使う以外の方法,逆強化学習などを利用
--関節角度が決まらない問題も
-内部モデルを考える必要をなくしたい→強化学習
-「なぜ学習を使うのか?」
制御の枠組みの実直な方法だと大変だよね
「内部モデルの作成」→「内部モデルの学習」
-「自由度>軌道の次元のとき」は削除(なくてもよいし,むし...
-最尤推定:オフライン
ベイズ推定:オンライン
-適当な入力→出力のペアを見る
入力と軌道のペアの学習…
-順運動学を学習して局所線形モデルを作った.このとき逆運動...
-順運動学モデルはBLWRで学習される
y(タスクスペース(目から見て))とqの関連付け
-順モデルから逆モデル
-(大塚先生参照)ベルマン方程式を求めるまでが動的計画法な...
-「最適解uを求める」のほうがわかりやすい
方策が確率的なのが$\pi$(生き方みたいなもの.だいたいこん...
$\pi\in u$
-大域的な最適な$u_k$が求められる
-全探索なので$\bm x$の中身が増えれば増えるほど,ベルマン...
-ベルマン方程式の左辺は$x_k$
-前半:理想的な状態→後半:モデルが不完全なとき
-完全であると仮定すると,動的計画法でベルマン方程式が求め...
-wiki「強調した」→「強調してきた」
-動的計画法あたり
--ランダムな行動はADP(近似動的計画法)のことを言っている...
--格子は区分線形の区切りなのでは
-スライド修正…「解適合格子法」はなくす
-軌道最適化
--「軌道最適化が制御則を求めずに」は作り込みの動作のこと...
-軌道
--状態xの時系列データ
--<ー>のところは消してよさそう
--入力の一連の流れを一単位にして良いところをみて変化させ...
-保証できないは削除
-今も軌道ベース推しとは限らない
-u_kを試してx_kを見てどんどん良くしていく.
縦軸Jでヨコ軸u
-方策勾配法の実例→モデルフリー学習(方策勾配法)の実例
----
スライドの修正メモ
-P.5
P. 20-29のようにスペースを空けて,ハイフンにする
-P.13
文章の修正
ポリシーサーチは消す
-P.18
状態方程式と観測方程式に力学の話をほそく
-P.19
例を消す
座標変換が必要なことについて説明(モータの角度がわかる必...
補足:運動の変換の話(順モデルは楽だけど解析的にはつらい…)
実例から,区分線形モデルで近似すれば順モデルを求めれば逆...
近似について考えるのは重要.
-P.22
文章の修正
-P.23
いうこと「最適な方策を求める方法としてベルマン方程式を解...
-P.25
動的計画法でベルマン方程式ができる
uを求めるニュアンスに文章を修正
(ベルマン方程式disのためにモデルベースの章で説明している)
-P.26
P.25とかぶるところは省略して,次の「次元の呪い」について...
uを求めるニュアンスに文章を変更
-P.28
次元の呪いの解決策
解適合格子法を削除
ランダムな行動選択→近似的な動的計画法(ADP=Aproxi Dy Pro)
状態xの時系列データ
動的計画法による…削除
x_kに対して,ひと続きの制御入力u_kをいくつか試して局所探索...
軌道→軌道に対する制御入力
-P.30
修正
-P.31
安全が保証できないのは消す
…手に負えない→前に説明したのと同じように,状態が多いと「...
-P.35
次元の呪い
-P.37
高次元空間のうんぬんとか,新しい技術の紹介など
**2016/5/19 スライドの修正 [#lc96b4a1]
深く眠れない理由がわかったかもしれない.
サーバ機が寝室にあってうるさいせいかもしれない.
とりあえず遠くに隔離したので,しばらく様子を見る.
----
ただただ,スライドを直していた.
メモはノートに手書きで書いていたので,あとで上げる.
**2016/5/18 動けなかった [#ldae5bb3]
ときどき動けない日があるが,今日もそうだった….
前に動けなかったのは5/3と4/20と4/23と4/30かな(日誌から確...
今までは大丈夫だったのに,今年度に入ってから動けなくなる...
つらいことは何もないのに,本当に寝る以外のことを何もした...
授業やロボットのデバッグ日みたいに,どうしてもその日にや...
あと最近,深く眠れない感じがあったので,そのせいもありそ...
このままじゃちょっとどうしようもないので,とりあえず健康...
体調を崩しがちになってからは,ちゃんと野菜を食べたり,運...
**2016/5/17 スライド見直しと先生から [#k0756421]
今日はスライドの見直しをしていた.改めて見てみると,おか...
明日も引き続き見直す必要がありそう.
----
-方策オン・オフはそれぞれオンライン学習かオフライン学習か...
-スライドの改良ってキリないね.どこを突っつかれても大丈夫...
もしかしてめっちゃ言ってる「関数近似」って非線形関数を線...
それならつじつまが合うぞ.
-どうしてモデルベース学習の前に「内部モデルの学習」につい...
最適制御するには内部モデルは必須だし,成り立ちの流れから...
最適制御したいけど,モデルがわからない→内部モデルを学習し...
根っこからたどると古典制御から語れるのかな? 気になる.
(どんなことも「こういう理由があってこうなった」というの...
-モデル学習っていうのはおそらく,強化学習よりも最適制御の...
ので最適制御側から辿った方がよさそう→似たようなもので「モ...
----
矢野先生曰く,金城先生の似てる感じの論文は目的関数が既知...
強化学習は目的関数もモデルも未知,最適制御は目的関数もモ...
なので私がこれから読むとしたら,システムダイナミクスにつ...
----
近藤先生から
-研究のイメージをつかむために,実際に強化学習を動かしてみ...
【この前,矢野先生にいただいたpythonのプログラムを動かし...
-概要は1ページでまとめなくてはいけなかったはず
(これで3人の先生全員に研究をどう進めたいかを伝え終わった)
**2016/5/16 メモなど [#db590a26]
矢野先生と水内先生は研究者として方向性が異なると思う.
いろんな研究のスタイルがあるのがわかって面白いが,とても...
現在の私の理想は「情報」的な手法を「機械」的に応用させる...
うまい具合に両立できるように考えていきたい.
----
水内研の定例研究会を受けて.
-研究テーマを「自分のものとして」理解するためには狭く深く...
-これまで「これをやることで何がいいのか」という観点でばか...
たしかに汎用性が高いということは,それだけいろいろな人に...
-提案されたテーマだと,受け身になってしまってよくないし,...
ただ,これまでそういう方向性で研究してきた先生のほうがテ...
たぶんそれはそうなんだけど,それ頼りじゃだめだよね.わか...
-とりあえず自分なりに他の手法も調べてみる.
----
前半組の文献講読の発表を聞いて.
-予想される質問を考えておいて,その答えを準備しておく必要...
-自分のスライドを読み込んで,論理の飛躍が無いか確認
-方策勾配法の例を出すのでそこら辺をきちんと整理しておく
----
矢野先生から
-kaphenがHJBの線形化を初めてやった.
-Z-learningはtodorov
-藤本健治さんの[[藤本 健治(FUJIMOTO Kenji) _ 京都大学 ...
-なぜガウシアンノイズを考慮して方策を求めることができるの...
ノイズは環境から得られるものなので
--ガウスノイズの再生性
ノイズキャンセリングみたいな
--機会制約も使えるのではないか
-「モデルフリーをモデルベースに」の詳細
言い方は違うが,システム同定
入力にノイズを含めてそこの応答を見る
強さは速度が速いこととモデルを使い回しできること.
弱さはモデルを覚えるのに計算・メモリコストがかかる.
-軌道は状態方程式で表されるようなxの集まりのこと
xはよく位置であるし,確かに軌道であるなあ
-「モデルフリーをモデルベースに」で本当に同じような先行研...
SLAMとかmarkerless motion captureなどと組み合わせても面白...
-[[ノーフリーランチ定理 - Wikipedia:https://ja.wikipedia....
-[[醜いアヒルの子の定理 - 機械学習の「朱鷺の杜Wiki」:http...
**2016/5/15 文献購読の概要を書いた [#gcbc20ab]
今日は研究室のBBQだったので何もできないかと思ったが,案外...
サーベイ論文なので,「主な論文」を書かなくてはいけないの...
とりあえず,phantomとlittle dogについて詳しく書かれている...
ひとまず一通り文献購読の準備はokかな?
まだ喋る部分のカンペは書いていないが,正直いらない気がす...
**2016/5/13 強化学習のスライド読み合わせ&方針 [#ha1c380a]
廣谷くんのスライド発表を聞かせていただいたので,そのメモ.
-なんだろうポイント
MDPとは
マルコフ・ディシズン・プロセス
ADPの手法がFVIとLSPD
LSPIが従来手法
ポステリア=事後分布
-P.2
「強化学習とは」の説明
文献購読とは翻訳することなのか,解説することなのか?
知らない人もいるのでわかりやすく説明する.
【私のスライドも最適制御という表現を使おう,今は何も言っ...
-P.3
どのタイミングで「?」を出すか?
問題のテーマ・解決したい部分で「?」を出さない
「効率的」は評価関数次第なので,はっきりとしないので安易...
速いことが良いか,正確なことが良いかは課題によって異なる.
言葉はなるべく合わせると良い.モデルを「用いる」・「与え...
-P.4
前のスライドとのつながりが難しい.
前提知識としての事後分布なのだが….
モデルについての説明を前に加えるとよさそう?
$\mu^*=\rm {argmin}_\mu KL[\bm P|\bm Q]$
モデル分布$P$を真の分布$Q$に近づけたい.その手法のうちに...
-P.5
変数の説明にベクトルとか何次元とか整数とか確率分布とかち...
$\bm x = f(s)$って何? わかりにくいから簡単にしてしまおう.
【関連する情報は近くに置くとよさそう(ページを変えるとわ...
-P.7
方策オフがオフライン・方策オンがオンライン
結論から述べるとわかりやすい.
ヒストリーの中に報酬の中に含まれていると解釈できる?
確定的な報酬関数なので全探索すれば得られる.一回取ればそ...
最適制御的な解き方=ADP
-P.9
トムソンサンプリング? よくわかんないけど,なんかいいらし...
トムソンサンプリングは一回だけサンプルすること.詳しくは...
数式には注釈を入れたほうがわかりやすい.
-P.10
ADPに2種類ある.
ちなみにADPは近似手法.【私の方の文献にもちょろっと書いて...
LSPIに学習率がある?
グラフの塗られている部分は90%までの信頼区間=ステップ数の...
90%の確率でその範囲に入るということかな?
小さいほうが,ばらつきが少ない.
-P.14
専門用語は使いすぎない.【うまい具合に色分けするとわかり...
なくても意味の通る分は省く.
-P.15
同じような比較をするとわかりやすい.
-P.16
「状態空間が」連続
効率的な探査・データが使えているとは?
**2016/5/12 exiiiの方がいらっしゃった [#z3fb4ebf]
今日は,[[exiii:http://exiii.jp/]]というベンチャー企業で...
印象に残ったことなどメモ
-dmm Akibaにオフィスを構えている
-メンバーはハード・ソフト・デザイナーの3人+インターンの...
--近藤さんは大学では義手の研究をしていた
--SONYに就職→趣味として仲間とコストやデザインを重視した義...
-パーツは基本的に3Dプリンタで製作
-CADデータやマイコンのプログラムはオープンソースで公開し...
-フォトリフレクタで筋肉の厚みの変化を計測して義手を操作↔︎...
--シンプルすぎるのでは?と思ったが,想像以上にそれっぽく...
--でもやっぱり筋電の方が反応が速そう
----
いかにも「現代のものづくり」という感じがした.
デザインも重視というところの思想がwhillと似ていると思った...
デザインと工学を結びつける流行があると思う.
----
[[James Dyson Award:http://www.jamesdysonaward.org/]]
James Dyson Awardという国際エンジニアリングアワードがある...
日本語で説明されているページ→[[「ジェームズ ダイソン アワ...
これはexiiiの方が教えてくださった.
「ロボ研にも宣伝しといてー」ってチラシをいっぱいもらった...
**2016/5/11 研究テーマと強化学習の補足 [#m4a604bc]
最近(強化学習ベースの場合の)研究について不安に思うとこ...
-研究テーマが自分の手元にない
--先生も考えてくださっていた(前に伺ったお話だと強化学習...
--実際に強化学習について勉強してみて思ったのは,自分で考...
-本当に強化学習を選ぶのがよいのかわからない(以下,完全に...
--人間の調整次第な「学習」というものがとても嫌いなので,...
--あくまで強化学習は手段であり,いくら改良したところで,...
-理想はどこまで追求できるのか?
--どうしても手段ベースの考え方になってしまうが,私は実際...
理想は,理論の改善の結果が実際のアプリケーションとして実...
私はそのアプリケーションとして不整地運搬ロボットを考えた...
それ以前に強化学習を手段として選ぶのにふさわしい課題って...
評価(具体例:前に進むと報酬+,後ろに下がると報酬ー)は...
卒業研究だと実際のアプリケーションの実装までいけない可能...
後付けでもいいから,不整地運搬ロボットが強化学習を使うの...
すごく雑な話だが,何らかの形で不整地運搬ロボットにつなげ...
----
-パワーポイントのmac版は数式が文字化けするが,windowsに文...
なので安心していい.
-来週あたり近藤先生と個別ゼミをして,文献購読スライドや概...
----
矢野先生より
(雑なメモになってしまった;;)
-逆強化学習は報酬関数の推定を行う
-統計的学習:データ分析
モデルを絞り込むということは,探索する空間を絞り込む
-人間の介入も経験則に基づくものと,根拠のないあてはめがあ...
-PI^2は根拠のない当てはめが見られる
-最適制御or強化学習or逆強化学習or模倣学習
-最適制御のデメリット
人間の経験に基づいて,評価関数・行動・状態・ダイナミクス...
-第一原理モデリング:物理モデルでごりごりとモデル化([[体...
量子コンピュータなどミクロなものはモデル化できるが…
-↔︎統計力学:平衡な線形,不平衡な線形,平衡な非線形,不平...
-物理モデルなどでごりごりするのは,ハードサイエンスという...
-モデル化誤差:真の分布と予測分布の誤差
-向き・不向き
評価関数・モデルを記述するのが大変なとき,IRL/RLを使う.
RLは状態と行動と得られた報酬のセット
状態遷移モデルfが既知である場合,モデルベース
IRLは統計的報酬モデル
-Value-based RL:報酬関数を推定する
Policy-based RL:方策を直接求める
-IRL/RLを使ってもいいけど,それを人が評価を与えてしまえば...
という反論もある.
-最適制御はモデルを用意しないといけない.
-モデルが変わりやすいときに,強化学習は強い.
-ゴールドリブン,目的ベース【一般に受けるイメージ】
-シーズドリブン,手段ベース【専門家に受けるイメージ】
抽象性の高い手段であれば,いろいろなアプリケーションに適...
-模倣学習:人とロボットのコミュニケーションに適用できそう
-deep RL: googleがやっている
PFNという会社も
-HJB方程式で制御$u$を代数的に求められる→モデルフリーにで...
$\theta$を知らなくてもできる.
-モデルフリーだけどモデルも生成できる.
-ガウスノイズに限定しないと,HJB方程式が出しにくい(伊藤...
-ある特定の仮定をおくとHJB方程式が線形化できる.
-これはモデルフリー学習であるので,モデルも学習すると面白...
-システムのノイズはガウス性(HJB方程式を導きやすくするた...
前置きはガウスノイズでないと説明できないが,他のノイズで...
前提をtheodoaの論文をベースに,モデルを得る
-いいところ
--汎用性が高い
--モデルがすでにあるので最適制御が使える
-gがrの報酬関数
Rは累積報酬和で最適化する前の価値関数Vと同義?
Jは評価関数
方策が確定的=決定論的(Aの次は絶対にB)=すべての確率が1な...
・確率的(Aの次は80%でB)
無限時間だと$\gamma$が1だと発散する
方策が決定的,いろいろ試してよくしましょう,ができない
挙動方策・探索方策として使い分けられていた
-ハミルトン・ヤコビ・ベルマン方程式は,やがてハミルトン・...
-田中先生は物理の先生で若い
運動制御について考えている
最適制御とか
-累積報酬和と期待値が一緒
-まだわかっていないもののうち,気づいているもの解答編!
--離散より連続の方が良い理由(「次元の呪い」関連だとは思...
---[[強化学習ロボットSTUDIOUS[スタディアス]プロジェクト...
「次元の呪い」を回避できるのが一番のメリット.
代数的にもとめられたら良い.
C.9を解くと後ろ側から全部minで解いていかないといけない
次のstateに移る確率分布から,計算で求められる
行動uは確定的
$\rm min_u$と表す場合は確率的であって,$\rm min_\pi$と表...
Sのときある行動が発生する確率
確率的方策:確率測度を変える
状態遷移のモデルも確定的だったり,確率的だったり
-$u$は平均だけ操作
$\epsilon$ 分散は操作しない
これは(2)からわかる
細かい分散は考えていない
----
矢野先生の方向性
-シーズドリブンな研究がよい(theodoaのモデルフリー強化学...
-シーズが確立してから,アプリケーションを考えたい.抽象性...
私の方向性
-手法を重点的に考えてしまいがちなところはあるが,実用的な...
理論だけで止まりたくない.
**2016/5/10 わからないところを調べてみたり,Pi^2を読んで...
わからないところはそういうものとして置いておいて,一通り...
じっくり読みこもうと思ったが,たぶん1日悩んで終わりそうな...
-(D.4)から(D.5)は.一つ一つ代入していけばそうなるんだろう
-(E.5)のεに1を代入したら,よく見るHJB方程式になるね
-要は,動的計画法から導いたハミルトン・ヤコビ方程式がHJB...
例えるなら,コニャック地方で作られたブランデーがコニャッ...
----
1本目の論文スライドは今の所あと補足くらい.
隠しスライドとしてはこのあたり(実際に読んでみて突っ込ま...
-パラメータとはどういうものか?
-内部モデルの例:運動学って何?何が難しい?
これはwindowsでやりたいので,基本家でやろうかな.
----
-まだわかっていないもののうち,気づいているもの
--離散より連続の方が良い理由(「次元の呪い」関連だとは思...
---連続な空間を扱う方法として,離散化するというものもある...
だが関数を近似(線形アーキテクチャ)すれば,扱いやすくな...
[[強化学習ロボットSTUDIOUS[スタディアス]プロジェクト:ht...
「次元の呪い」を回避できるのが一番のメリット.
代数的にもとめられたら良い.
--ベルマン方程式やハミルトン・ヤコビ・ベルマン方程式につ...
---どちらも動的計画法から求めたもの
--gradientの求め方の詳しいところ【スライド△】
---[[Reinforcement learning of motor skills with policy g...
必要に応じて詳しく読んでみよう.
--Success matching principleについて【スライド△】
---まだわかっていない.
----
-「経路積分強化学習による猫ひねり運動の制御」
HJB方程式の線形化を用いたモデルベースな学習
-[[ロボット学習:http://www.orsj.or.jp/archive2/or57-07/...
-ほかの文献と見比べると,式(10)が違うし,変形してもそのよ...
**2016/5/9 スライドの改善 [#r618de67]
-方策の微分が求められると累積報酬和の期待値Jの勾配法が使...
--方策というのは確率的方策$p_\theta$ということ?
--あるいは聞き間違い?
このへんがよくわからなくなったので[55]を読んでみる
----
[[Reinforcement learning of motor skills with policy grad...
P.2の式(3)のあたりを読んでみた.
-定義
--$a_k$:時間に依存する重み要素($a_k=\gamma^k$など【見覚...
--$a_\Sigma$:正規化要素
--$r(\bm x_k, \bm u_k)$:報酬関数
--$H$:時間の範囲
-方策勾配法の(普遍的な)目標
報酬の期待値
\[
J(\theta)=\frac{1}{a_\Sigma}E\{\sum^H_{k=0}a_kr_k\}
\]
を最適化するため,方策パラメータ$\theta\in\bm R^k$を最適...
【つまりパラメータ調整ってことなの?あるいは$\theta$を方...
【確かに方策はパラメータ$\theta$の関数だし,$\theta$を改...
P.3の式(11)あたりを読んでみた.
-一番の問題は方策の微分の良い推定を得ることである.伝統的...
Table1とTable2を読んでみた
-Table1から言えるのは,Jの微分が求められる→θが最適化できる
-Table2から言えるのは,θの微分が求められる→Jの微分が求め...
-【結局最適なθを求められればいいのなら,Jの微分を求めない...
↔でもそれって次元が違う気がするし,そうせざるを得ないのか...
-こんがらがってきたのでスライドには載せなくていいか…
----
今日はwindowsを持って来ていたのでスライドの改善をしていた...
最低限は修正したので,あとは隠しスライドと必要に応じて肉...
最近昼間の眠気がひどい(特に食後)し,頭もふらふらするこ...
さほど寝不足というわけでもないので原因もよくわからない.
もしかしたら自転車通学が結構身体にきているのか…?
でも音楽を聞くとちょっと良くなるし,気分の問題もあるのか...
-そろそろ【?】のメモをまとめて先生に聞きたい
-研究の方向性…
**2016/5/7 昨日の続き [#x4864b1e]
矢野先生に教えていただいた論文
[[計算論的神経科学のすすめ─脳機能の理解に向けた最適化理論...
を読んでみる.
-そういえば評価関数って何だっけ?
前にも調べた気がするが,忘れてしまった.ざっくり調べてみ...
「経路積分強化学習による猫ひねり運動の制御」には,「評価...
\[
J_1(\tau_t)=q_e(\bm x_T)+\int^T_tq_i(\bm x_t, \bm u_t)dt\\
q_i(\bm x_t, \bm u_t)=q_s(\bm x_T)+\frac{1}{2}\bm u_t^T\b...
\]
「Learning Control in Robotics」には,「割引累積報酬の期待...
\[
J(\bm x_0)=E_\tau \{\sum^N_{k=0} \gamma^kL(\bm x_k, \bm u...
\]
「人工知能概論」には,「状態価値関数」として以下のように...
\[
V_\pi(s)=E_\pi[R_t|s_t=s]=E_\pi[\sum^\infty_{k=0}\gamma^k...
\]
「[[概要:http://ysserve.wakasato.jp/Lecture/ControlMecha2...
\[
J = \int^{t_f}_{t_i} L(\bm x,\bm u,t) dt
\]
これらのことから,最適制御の「評価関数」は強化学習の「割...
最適化したい関数的な.
とりあえず今はそういうことだとして読み進めてみるが,週明...
-なんというか,ベルマン方程式ってめっっちゃ単純…?
よくある漸化式の解法とそっくりだし,誰でも導けそう(初心...
-「ダイナミックプログラミングという名前の由来につ...
確かに動的計画法そのものとdynamic programmingってなんだか...
-Dの「評価関数には$u_N$が含まれないので」ってどういうこと?
--そもそも「ステップNにおけるcost-go-to関数」というのは,...
--「評価関数には$u_N$が含まれないので」は,「猫ひねり」論...
つまり,状態$x_N$まであるとき,入力$u_{N-1}$までで十分だ...
これも確認したい.
--仮にそうだとして,(D.3)が
\[
V_N[x_f] = \frac{1}{2}x^T_fQ_Nx_f+\frac{1}{2}x^T_NQ_Nx_N
\]
ではなく
\[
V_N[x_f] = \frac{1}{2}x^T_fQ_Nx_f
\]
となるのは,$x_{k+1}=Ax_k+Bu_k$から
\[
V_N[x_f] = \frac{1}{2}x^T_fQ_Nx_f+\frac{1}{2}(Ax_{N-1}+Bu...
\]
となって,Nを含む変数を含まなくなるからかな?
↔️いや$Q_N$がいるじゃん
(…思考停止…)
**2016/5/6 論文や聞いたことについて調べた [#k48c2a40]
日本語の資料を集めた(誤訳している可能性を考えると,基本...
-方策勾配法について
[[方策勾配法を用いたサッカーエージェントの学習~フリーキ...
-gradientの計算について
[[シミュレーションによる勾配推定の手法:http://www.is.tite...
[[各種離散化解析手法:http://www.civil.chuo-u.ac.jp/lab/ke...
-REINFORCEアルゴリズム
[[NIPS2014読み会で深層半教師あり学習の論文を紹介しました:...
-trajectory
[[自然言語処理における逆強化学習・模倣学習の適用:http://2...
trajectoryの日本語訳は「行動列」でよろしいのかな(軌道っ...
つまり,trajectory=行動$\bm a = [ a_1, a_2, a_3, \dots ]$...
そこから考えると,"the probability of a trajectory"はある...
-ハミルトン・ヤコビ・ベルマン方程式とベルマン方程式は別物
「…連続時間系ではHamilton-Jacobi-Bellman (HJB) 方程式を,...
[[線形化マルコフゲーム理論によるロバスト制御:https://...
-Lがuの2乗のときにHJB方程式が解析的に求められることについ...
[[ロボット学習:http://www.orsj.or.jp/archive2/or57-07/o...
そもそもLを仮定する時点でそれはモデルを利用していることに...
-つまり経路積分法を用いる方法には,モデルベースのものとモ...
おそらく「猫ひねり」の論文がモデルベースのもので,それ(...
--もうちょっと詳しく言うと,モデルベースの経路積分法のル...
[[ロボット学習:http://www.orsj.or.jp/archive2/or57-07/or5...
HJB方程式の線形化(線形の制御対象,かつ,報酬関数が$r(t)=...
→モデルベースの経路積分法
→モデルフリーの経路積分法,という流れかな.
-[[システム制御工学シリーズ 非線形最適制御入門|コロナ社:...
かゆいところに手が届く感じの良い本!
わからないところがあればこの本をめくると答えが見つかりそ...
--価値関数=最適コスト関数(optimal cost function)=cost-to-go
--ベルマン方程式は離散時間(P.71),ハミルトン・ヤコビ・ベ...
この本の中では,離散時間システムの最適制御問題に動的計画...
このことから,離散よりも連続のほうが計算機に優しい(意訳...
-まだわかっていないもののうち,気づいているもの
--離散より連続の方が良い理由(「次元の呪い」関連だとは思...
--ベルマン方程式やハミルトン・ヤコビ・ベルマン方程式につ...
--gradientの求め方の詳しいところ【スライド△】
--Success matching principleについて【スライド△】
----
-編集ボタンがスクロールに付いてきてくれると便利だなあ(誰...
-項目ごとに編集ボタンをつけたい.
**2016/5/4 文献購読(小) [#mdea8fab]
5/2の水内研短プロ発表会向けにざっくり作ったスライドを見な...
以下そのメモ.
----
P.13について
-$\theta$ではなく$\bm \theta$で固有パラメータという訳は不...
これは基本的には人間が調整してあげる部分
パラメトリックモデル:$\bm u$はガウス分布,シグモイド関数...
統計学的には「母集団の特性を規定する母数についてある仮説...
試験問題で言うと穴埋め式である程度枠組みが決まっていてそ...
逆に考えると,その枠組みが正しそうなものでないと,見当違...
ノンパラメトリックモデル:$\bm{u=Ax}$,パラメータ$\bm \th...
\[
u=\sum a_ix^i
a_i=1 (i=1)
a_i=0 (otherwise)
\]
であれば$a_1$が$\theta$になる.
統計学的には「母集団の分布型(母数)について一切の仮定を...
試験問題で言うと記述式で,自由に考えるような感じだね.
統計学的には「」の部分は[[パラメトリックな手法とノンパラ...
-$\bm \theta$は「温度パラメータ」など,一般に人間が職人技...
-文献中の(1)式の$\pi$の引数は$x$でなくて$y$であってよい(...
つまり元の式が
[エージェント:最適な出力$\bm y$を選んで環境に与える]
[環境:エージェントから出力された$\bm y$から状態$\bm x$を...
$\bm u$=$\pi(\bm x, t, \bm \theta)$
とすると,$y$であってよいというのは
[エージェント:最適な出力$\bm y$を選んで環境に与える]
[環境:エージェントから出力された$\bm y$から状態$\bm x$を...
$\bm u$=$\pi(\bm y, t, \bm \theta)$←[エージェント:環境に...
ってことだね.
P.15
-この論文の「ロボット学習の分類」は割と適当なんじゃないか...
P.16
-モデルベース制御はFF制御の傾向はあるが,モデルフリー制御...
--FB制御∈モデルフリー制御,イコールでは結ばれない(個人的...
-3分岐の図&説明はややこしいので削除して,slackの図を使う...
P.18
-模倣学習∈教師あり学習
-逆強化学習はReword=報酬を推定する,汎化できる
-模倣学習はRewordを設計しなくても教師がわかればいい.実用...
P.19
-ワンショット問題(遅延報酬問題)
ゴールだけ与えてあとはお任せ.動作の終端から経路を求める...
P.20
-解析的に求めると複雑…ロボットアームについては突っ込まれ...
-そもそもそんなに簡単に非線形関数のモデルが求められるのか
-p.20に制御の数式を持ってくるのもあり
-改善策:ロジックとして「頑張れば求められる,でも動かすの...
(飛ばしてしまったところに要点があった…!)
-逆モデルの学習について,手法は幾つかある
--最初に,先に模倣学習,逆強化学習をする
模倣学習の目的も「$\pi$を獲得したい」なので,これらによっ...
--自由度を殺す
P.28
-「ベルマン方程式が定義され」→「ベルマン方程式が成り立ち...
-「最適状態価値関数」→「状態価値関数を最適化」
-min…の式について,uが最適「解」でVが最適「値」
-Q:最適行動価値関数
ある行動xのときに状態価値関数xのQ(x,a)を最適にする
-uを全探索したくない
--適当に取る
--Lをある特定のものに定めてあげると,離散のまま解析的に解...
(P.29に書いてある)
-適応[32][33]
P.31
-強化学習というものは,「πを求めたい」という目的だけなの...
なのでTD学習やQ学習を知らなくても,新しい強化学習について...
これらは名前だけの説明でもいい.
P.32
-連続と離散
--ベルマン方程式を繰り返し解くことは次元の呪いを引き起こす
J_u=L+V
x=0~100が定義されているとして
離散:0,1,2,3,4,...,連続:0,0.000001,...
uが増えたとき,全探索すると「次元の呪い」
コンピュータにとって連続のほうが嬉しい=全探索はしたくない
--ベルマン方程式を使わないために連続な状態について考えた...
--TD学習とQ学習は大抵離散の問題を解く
-「連続空間に関数近似するときたくさんのサンプルが必要」は...
-軌道に基づいた最適化=policy search
-実際の解法
--シミュレーション内で最低限の準備をしてから実世界で(少...
--シミュレーション内でπを求めていく
--模倣学習で初期値を与えて,「局所」最適化(ほぼ最適化,...
-一般に状態量の軌道:(最適)入力のことをtrajectryという
軌道ベース=ポリシーサーチ
P.35
-みんな使いたがらないと言いたい?
今後の実際の用途:もっと高次元でおもちゃでない用途
長期的で自律的な学習能力を獲得したい
最後に
-所見を入れるとよさそう
----
強化学習の分類
-model based
-model free
--policy search
---experience data
Rewordがわかる
---demonstration data
状態とactionだけがわかる
---方策勾配法:下で詳しく
-方策勾配法
「方策勾配定理」
方策の勾配=微分が必要
--ベイジアン
--確定的方策勾配法
-Success matching principle
方策の微分は不要
--Power
--PI^2
備考
-theodoaの論文はモデルがわからないときの期待累積報酬の最...
-Vを学習する…TD学習
-廣谷くんの読んでいる論文つまりLGBL(Linear Bayesian Reinf...
-learning feature representations=特徴量学習
前処理にあたる.ロボットの場合,ピクセルの情報だけ.
これはレイヤごとに分けて考える.人間の認識に近い.
モデルベースとモデルフリーの違い
-モデルフリー:ベルマン方程式(ベルマン方程式はモデルがあ...
ここでいうモデルはコスト(報酬)関数Lと f
fを知っている,Lを知っているという状況はないことはないが...
モデルベース:ベルマン方程式を使ってVを求めたり,求めなか...
----
確率的直接勾配学習(Probabilistic Direct Policy Learning)
-Probabilistic Direct Policy Learningあたりをもっと突っ込...
-いろんなgradientを計算する方法がありますよー
--REINFORCE algorithm(固有名詞)…方策の中にθを入れると嬉...
--決定論的方策:1対1で定まる
確率的方策:確率分布に従う.ある程度ランダム
GPOMDPはREINFORCEの上位互換
--2次勾配法…2階微分も考慮
--確率分布の平均だけ動かすと楽になるよ
-方策勾配法は「次元の呪い」がおこりにくい
-ロボティクスでもてはやされている
-Probabilistic Direct Policy Learning
(4)をlikelyhood=尤度関数として扱うともっといろいろ広がり...
--いろんなアルゴリズムを使ってθを最適化できるね!
--HJB方程式をL=u^2にすると解析的に考えられて強化学習でき...
theodoaはモデルフリーでできる方法を提案した
first-order principles of optimal control theory = HJB方...
exploration noiseを使うと面白い
[75]がモデルベースの強化学習を構築したことには言及してお...
todorovモデルベースの強化学習,L=u^2しているが,離散の場...
-方策勾配法の概要をばばっと書くとよさそう
policyの微分が求められると累積報酬和Jの勾配法が使える
-尤度関数として使うと,もっといろいろできるよ
ページ名: