TechBridge 技術共筆部落格

var topics = ['Web前後端', '行動網路', '機器人/物聯網', '數據分析', '產品設計', 'etc.']

Guided Policy Search 環境安裝


前言

Guided Policy Search (GPS) 是一個滿酷的 policy search 方法,接下來我們會來介紹這個 package 的安裝還有啟動方法,讓大家好入個門。如果你不太了解什麼是 policy 跟 policy search,可以看看 這篇文章

因為核心的安裝方法在網頁上已經寫得滿清楚,所以這篇文章主要是側重在幫大家整合一些可能需要的資源(因為安裝過程中可能會遇到一些問題)。

安裝方法

首先,要先安裝一些基本的 dependency,這個可以直接參考 GPS 的網頁。需要有 python, caffe/Tensorflow 等等東西,網路上都有很多資源了,就不再贅述。

接下來,要 clone GPS 的 package:

1
git clone https://github.com/cbfinn/gps.git

然後就是去執行設定:

1
2
cd gps
./compile_proto.sh

如果你在安裝完畢後有遇到其他問題,你可以看看 這個 issue,或者也可以看 這個 issue,應該就可以 cover 大部分遇到的問題了!

啟動 GPS

這個 package 裡面已經提供了幾種測試環境,Box 2D、Mujoco 跟 Gazebo PR2,因為個人覺得 PR2 比較大隻,可以做到更複雜的任務,所以就講一下怎麼啟動 PR2 的範例。

一開始要先啟動 Gazebo 跟弄出一隻 PR2:

1
roslaunch gps_agent_pkg pr2_gazebo.launch

這一步你如果碰到問題,可以參考 這篇文章

接下來是啟動 Guided Policy Search:

1
python python/gps/gps_main.py pr2_example

跑起來之後應該就會看到如下的視窗,然後 Gazebo 裡面的 PR2 會開始動,Window 中也會開始顯示訓練時的軌跡資料:

gps-window

接下來就會看到 PR2 的左手一直在進行嘗試,這些嘗試是為了讓 PR2 的左手可以到達目標位置:

gazebo-pr2

達到目標之後,GPS 的視窗就會顯示如下:

gps-window-2

下一步是什麼?

下一步就看你想要拿 GPS 來做什麼實驗,你可以套用自己的機器人設計自己的實驗等等,或是以目前的環境為起點完全弄懂 GPS 的實作細節,有滿多東西可以延伸的。

總結

今天跟大家介紹了 Guided Policy Search 的環境安裝跟基本概念,主要是想幫助有興趣的讀者可以減輕入門的環境安裝門檻,更詳細的演算法概念可以參考 深入淺出 End-to-End Learning on Robotics,或你也可以去看 Guided Policy Search 的論文,會幫助你對演算法本身更加了解。

延伸閱讀

  1. 深入淺出 End-to-End Learning on Robotics

關於作者:
@pojenlai 演算法工程師,對機器人跟電腦視覺有少許研究,最近在學習看清事物的本質與改進自己的觀念

喜歡我們的文章嗎?歡迎分享按讚給予我們支持和鼓勵!





訂閱 TechBridge Weekly 技術週刊,每週發送最精華的技術開發、產品設計的資訊給您



TechBridge Weekly 技術週刊編輯團隊

TechBridge Weekly 技術週刊團隊是一群對用技術改變世界懷抱熱情的團隊。本技術共筆部落格初期專注於Web前後端、行動網路、機器人/物聯網、資料科學與產品設計等技術分享。This is TechBridge Weekly Team Tech Blog, which focus on web, mobile, robotics, IoT, Data Science technology sharing.

關於我們 / 技術日報 / 技術週刊 / 粉絲專頁 / 訂閱RSS

留言討論