Guided Policy Search 環境安裝

前言

Guided Policy Search (GPS) 是一個滿酷的 policy search 方法，接下來我們會來介紹這個 package 的安裝還有啟動方法，讓大家好入個門。如果你不太了解什麼是 policy 跟 policy search，可以看看這篇文章。

因為核心的安裝方法在網頁上已經寫得滿清楚，所以這篇文章主要是側重在幫大家整合一些可能需要的資源（因為安裝過程中可能會遇到一些問題）。

安裝方法

首先，要先安裝一些基本的 dependency，這個可以直接參考 GPS 的網頁。需要有 python, caffe/Tensorflow 等等東西，網路上都有很多資源了，就不再贅述。

接下來，要 clone GPS 的 package：

1	git clone https://github.com/cbfinn/gps.git

然後就是去執行設定：

1 2	cd gps ./compile_proto.sh

如果你在安裝完畢後有遇到其他問題，你可以看看這個 issue，或者也可以看這個 issue，應該就可以 cover 大部分遇到的問題了！

啟動 GPS

這個 package 裡面已經提供了幾種測試環境，Box 2D、Mujoco 跟 Gazebo PR2，因為個人覺得 PR2 比較大隻，可以做到更複雜的任務，所以就講一下怎麼啟動 PR2 的範例。

一開始要先啟動 Gazebo 跟弄出一隻 PR2：

1	roslaunch gps_agent_pkg pr2_gazebo.launch

這一步你如果碰到問題，可以參考這篇文章。

接下來是啟動 Guided Policy Search：

1	python python/gps/gps_main.py pr2_example

跑起來之後應該就會看到如下的視窗，然後 Gazebo 裡面的 PR2 會開始動，Window 中也會開始顯示訓練時的軌跡資料：

gps-window

接下來就會看到 PR2 的左手一直在進行嘗試，這些嘗試是為了讓 PR2 的左手可以到達目標位置：

gazebo-pr2

達到目標之後，GPS 的視窗就會顯示如下：

gps-window-2

下一步是什麼？

下一步就看你想要拿 GPS 來做什麼實驗，你可以套用自己的機器人、設計自己的實驗等等，或是以目前的環境為起點完全弄懂 GPS 的實作細節，有滿多東西可以延伸的。

總結

今天跟大家介紹了 Guided Policy Search 的環境安裝跟基本概念，主要是想幫助有興趣的讀者可以減輕入門的環境安裝門檻，更詳細的演算法概念可以參考深入淺出 End-to-End Learning on Robotics，或你也可以去看 Guided Policy Search 的論文，會幫助你對演算法本身更加了解。

TechBridge 技術共筆部落格

var topics = ['Web前後端', '行動網路', '機器人/物聯網', '數據分析', '產品設計', 'etc.']

Guided Policy Search 環境安裝

前言

安裝方法

啟動 GPS

下一步是什麼？

總結

延伸閱讀

訂閱 TechBridge Weekly 技術週刊，每週發送最精華的技術開發、產品設計的資訊給您

留言討論