ボストン・ダイナミクスのヒューマノイドロボット「アトラス」が「稼働」を開始し、バク宙以上のことができるようになった。

著者：アトラス社ロボット行動担当ディレクター、アルベルト・ロドリゲス氏、研究エンジニア、シェーン・ローゼン＝レヴィ氏、ヴィナイ・カミディ氏

編集：フェリックス（PANews）

この人型ロボットは、これまでに見たことのないようなロボットです。最新の動画では、アトラスロボットが胴体を180度回転させ、しゃがみ込み、小型冷蔵庫を持ち上げて休憩中のエンジニアに届ける様子など、一目瞭然な点もあります。しかし、ロボットが腕、脚、胴体を最大限に活用して人間には難しい持ち上げ作業を行う様子や、動画では全く表現できないロボットの進化のスピードや動作の精度といった、あまり知られていない詳細も存在します。

これは確かに爽快だが、なぜそうするのか？

アトラスミニ冷蔵庫

ボストン・ダイナミクスの他のロボットは、最も重労働を自動化するように設計されています。Stretchロボットは、極めて高温の環境下でも、最大23キログラムの箱をトラックから自律的に荷降ろしできます。Spotロボットは、毎日全く同じ時間に同じ検査ルートに沿って同じ測定を行い、工場内の問題の兆候を早期に検出します。これらの作業は単調ではありますが、細部への高い注意力が求められ、StretchとSpotはまさにそのようなサービスを毎日提供しています。

Atlasは、工場、倉庫、建設現場など、極めて高い強度、耐久性、器用さが求められる場面において、幅広い機能を提供することを目指しています。Boston Dynamicsは、Atlasを汎用的な手作業ツールとして開発することに取り組んでいます。実環境で求められる性能と信頼性を実現するには、ハードウェアと動作制御の両面において大幅な進歩が必要です。

以下は、ハードウェアと動作の両面における著しい進歩を示す、綿密に設計された一連の実験である。1月にアトラスが一般公開されてからわずか数週間で、この人型ロボットは、力強さ、器用さ、そして全身制御能力において優れた性能を発揮した。

現実世界のための物理的知能

ここ数年、市場では、実証データに後押しされ、汎化能力がますます向上した行動アーキテクチャの根本的な変化が見られました。これらは、ヒューマノイドロボットの可能性を実現する上で重要な要素です。すなわち、適応性、迅速な学習、そしてタスクの再割り当ての容易さです。これらのアーキテクチャは、デスクトップロボットアームの動作だけでなく、現実世界のタスクを実行する完全な機能を持つヒューマノイドロボットの動作も実現できます。

最先端の主流手法は優れた動作を実現できる一方で、いくつかの限界も抱えている。例えば、世界を理解するだけでなく制御ループを誘導するためにも、カメラからの継続的なフィードバックに過度に依存していること、環境との相互作用がロボットの表面（通常は指、多くの場合指先のみ）のごく限られた範囲に限定されていること、そして、ほぼ完全に軽量なタスクに特化していることなどが挙げられる。

実際の仕事、特に重労働においては、「身体的知能」という言葉はより広い意味で用いられる。物を移動させる際、チームは体のあらゆる部分を使って重量を支え、触覚を使って物の形状、質量、硬さに適応する。

冷蔵庫は、ただ見て手を使うだけでは持ち上げられません。準備をし、重さを予測し、体を前に傾けて形状と重さに合わせて調整し、持ち上げられるかどうかを判断する必要があります。本当の作業は、実際に触れ合う中で行われます。ヒューマノイドロボットは、冷蔵庫を持ち上げるのと同じくらい簡単に、前腕と上腕二頭筋で箱をつかみ、膝を使って地面から太ももまで重い物を持ち上げ、肩で長くて重い物を運ぶことができなければなりません。

Atlasは強化学習（RL）を用いて冷蔵庫の持ち上げ方を学習し、シミュレーション環境で膨大な数の冷蔵庫持ち上げ動作を練習します。最も難しいのは、冷蔵庫を見ることや持ち上げ方を知ることではなく、現実世界でAtlasが遭遇する可能性のあるあらゆる形状の冷蔵庫に適応することを学ぶことです。これは制御と知覚を組み合わせた問題であり、知覚は身体の固有受容感覚によって暗黙のうちに実現されます。これらの動作を駆動する戦略は、冷蔵庫の位置、質量、地面との摩擦とグリップ、あるいは胴体、腕、手の間の配置など、さまざまな変化に適応することを学習してきました。このレベルの適応は、身体的知能の最も基本的な構成要素の1つです。

重い荷物を運ぶロボット

本日展示されたハードウェアもまた、他に類を見ないものです。この世代のアトラスロボットは、実用作業に必要な柔軟性と強度を満たすだけでなく、量産に必要なシンプルさと信頼性も兼ね備えるように設計されています。人型ロボットの形状には利点がありますが、戦略的なブレークスルーによって、その性能と効率を大幅に向上させることができます。

すぐには分かりにくいかもしれない注目ポイントをいくつかご紹介します。

最小限のアクチュエータ：ロボット本体には2種類のアクチュエータのみが使用されています。これにより、より効率的で強力なアクチュエータを大規模に製造することに注力でき、最終的にコスト削減につながります。これらはすべて回転式アクチュエータであり、シミュレーションで正確に表現しやすいため、前述の固有受容感覚フィードバックを用いた高性能強化学習に不可欠です。
非常に反復性の高い構成要素：同じサブコンポーネントが身体のあらゆる部分で可能な限り再利用されている。両脚と両腕は全く同じである。肩から肩、骨盤から骨盤への構造も完全に同じである。
無限回転ジョイント：これらのアクチュエータは無限に回転できます。これは、ジョイント間のケーブルをすべて排除することで実現されており、アクチュエータのハードウェア故障の主な原因となる要素を排除しています。これにより、アトラス社の顧客のコスト削減につながるとともに、アトラス社独自の効率的な動作モードが実現します。
左右対称の足：アトラスは前進と後退の動きがどちらも非常に優れているため、その足は左右対称です。
メンテナンスが容易：腕、脚、手、頭部はすべて現場で交換可能なユニットであり、わずか数分で交換できます。

この移動式小型冷蔵庫は、力強さ、全身の協調性、そして固有受容感覚フィードバックの活用を実証しています。これは、通常2人での作業が必要となる製造現場での重い物体の移動など、産業作業における新たな基準となっています。

しかし、実用的ではないタスクの中にも意義深いものがあります。例えば、90キログラムのロボットは優れた熱管理システムを備えているため、逆立ちや後方宙返りを行うことができます。つまり、Atlasは高温環境でも動作できるということです。さらに、こうした動作は、機敏かつバランスよく動く方法、狭い空間で自在に動く方法、滑ったり転倒したりした際に体勢を立て直す方法など、他の応用可能なスキルを訓練することにもつながります。

トレーニングプロセス

製品および研究プラットフォームとして、Atlasの目標の一つは、新しい動作を1日以内に学習・展開することです。今回のデモンストレーションではその速度には達しませんでしたが、冷蔵庫を確実に移動させるAtlasの能力は、期待をはるかに上回るものでした。

ロボットのトレーニング方法は以下の通りです。

参照軌跡：新しい動作を学習させるには、参照軌跡と呼ばれるデータを使用します。これは、ポリシーに何をすべきかを指示するデータです。参照軌跡は、遠隔操作のデモンストレーション、アニメーションによる軌跡、またはより抽象的な目標の説明などです。冷蔵庫の移動タスクでは、まずシンプルなアニメーションを使用して、Atlasの超人的な可動範囲を最大限に活用しました。
インセンティブ：次に、ロボットがアニメーションの軌跡にできるだけ忠実に追従してタスクを完了するように目標を設定します。報酬メカニズムを確立することで、望ましい動作（アトラスのグリッパーに重量を保持し、同じ位置と向きを維持すること）を強化すると同時に、ロボットと冷蔵庫に押し引きの干渉を加えることで、妨害を受けてもメインタスクに集中できるようにします。
シミュレーション：アトラスはグラフィックス処理ユニット（GPU）上でシミュレーションプログラムを並列実行し、数百万時間に及ぶ動作練習を行った。広範なシミュレーション経験を通して、アトラスは冷蔵庫内の様々な変化に応じて動作を調整することを学習した。
実機ロボット：シミュレーション結果が良好だったため、ハードウェアテストを実施しました。シミュレーションは一定の範囲でしか役に立たず、ハードウェアテストは継続的な改善のための根本的な手段です。
反復：実際のロボット上で戦略のパフォーマンスに関する実際のデータが得られたら、トレーニングプロセスを再度実行して調整を行い、動作を強化することができます。

シミュレーションと現実のギャップを縮める

Atlasのエンタープライズ版における最も重要な改善点の1つは、シミュレーション環境の忠実度の高さです。Atlasのシミュレーションは現実世界に非常に近く、容易にトレーニング、テスト、そして迅速な反復を行うことができます。一般的に、シミュレーション上で良好な動作が見られれば、ロボット上でも同様に良好なパフォーマンスを発揮します。

シミュレーションと現実のギャップとは、シミュレーション環境における戦略の性能と、実際のハードウェアにおける性能との差を指します。シミュレーションにおける仮定や数学的な簡略化では、現実世界の複雑さを捉えることはできません。摩擦、遅延、センサーノイズといった微妙な変動や変数が蓄積され、現実世界で誤動作を引き起こすのです。

このギャップを完全に解消することは不可能かもしれませんが、私たちはそれに非常に近づいています。Atlasチームは、テストと開発のための厳格なパイプラインとシステムサポートを確立しました。今日トレーニングされたポリシーは、明日には成熟したポリシーを用いてロボット上でテストされ、収集されたデータは次のイテレーションと新しい動作の開発に活用されます。

シミュレーションと現実の差がこれほど小さいのはなぜでしょうか？

高忠実度ハードウェア：従来のプラットフォームとは異なり、このプラットフォームは完全に左右対称な強力かつ効率的なアクチュエータを2つだけ使用しています。このシンプルな設計と構造、そしてアクチュエータの効率性により、ロボットをシミュレーションで極めて高い精度でモデル化できます。ロボットモデルが実際のハードウェアに非常に近いため、学習済みの戦略を展開する際の忠実度に関する問題が少なくなります。シミュレーション結果は実際の結果と完全に一致しています。

ドメインランダム化：戦略の堅牢性を高めるため、ロボットは理想的な環境では訓練されませんでした。ドメインランダム化は、訓練プロセス全体を通して、冷蔵庫の重量、床の摩擦、モーター出力などのパラメータを微調整するために使用されました。訓練中のこれらの小さなランダムな変動により、最終的な動作は現実世界の変数に対してより耐性を持つようになります。たとえば、冷蔵庫を移動するための戦略は、最初は50～70ポンドの負荷で訓練されましたが、ロボットは100ポンドを超える重量のアイテムでいっぱいの冷蔵庫を正常に移動しました。チームはまた、完璧な条件下でテストを行いませんでした。彼らは研究室からさまざまなアイテムを冷蔵庫に入れました。重量は一定ではなく、分布も不均一で、移動中にアイテムが冷蔵庫内で移動しました。十分に開発された戦略があれば、これらの妨害要因はすべて、エンジニアが対処するのではなく、Atlasによって排除されます。

人材とプロセス：最後に、プロセスと運用は、トレーニング、テスト、実験を効率化するように設計されています。チームは厳格なプロセスを確立しており、舞台裏では多くの人々が働いています。チームは、ハードウェア設計チーム、保守技術者、ロボットキャプテンなど、ロボットの実際の運用を担当する多数のチームと緊密に連携しています。組織全体が協力して、Atlasを可能な限り信頼性が高く効率的なものにすると同時に、新しい機能の限界を常に押し広げています。