Electronics Information Service

組込みシステム技術者向け
オンライン・マガジン

MENU

横田英史の読書コーナー

基盤モデルとロボットの融合〜マルチモーダルAIでロボットはどう変わるのか〜

河原塚健人、松嶋達也、講談社 KS理工学専門書

2025.11.24  9:39 am

 生成AIのロボットへの適用手法を分かりやすく解説した書。豊富な図版を使いながら多くの事例を紹介する。示唆に富む事例が満載である。数式が登場する難しい箇所もあるが読み飛ばしても大勢に影響はない。本書が扱う事例は主に研究レベルやシミュレーション・レベルだが、ロボットの生産現場や生活空間などでの将来像を垣間見ることができる。フィジカルAIやエンボディドAIへの関心が高まるなか、時宜にかなった専門書となっている。役立ち感に溢れた、強くお薦めできる書である。
     
 筆者はまず「基盤モデル」について紹介する。マルチモーダルに対応し、大規模で汎用性の高いAIモデルである。テキストだけではなく、画像、音声、動画、センサーデータなどを扱える。基盤モデルによって、ロボットの認識や制御の仕組みが大きく変わり、生産性や効率、使い勝手が高まることを、事例を挙げながら明らかにする。このほか、ロボット向けの基盤モデルをどのように作るか、リアルタイム性の欠如など現時点での問題点についても論じる。
     
 興味深いのは、ヒューマノイドロボット(アンドロイド)研究の興隆の一因が、基盤モデルとロボットの融合にあるという指摘である。基盤モデルは、インターネット上のデータを用いて大規模な学習を行うが、人間の身体構造や動作を扱ったデータには限りがある。ヒューマノイドロボットを用いれば、このデータ不足を補うことができる。
      
 筆者は、大規模言語モデル(LLM)や視覚言語モデル(VLM)、音声言語モデル(ALM)といったモデル同士が「言語」を介して議論し、情報を共有することで様々なアプリケーションへの対応が可能になると強調する。LLMは人間の常識的な知識をある程度まで包含していると考えられる。そのLLMの前提知識を活用することで、ロボットは認識や計画といったタスクを自律的に実行できるようになるという。少々、空恐ろしい話である。

書籍情報

基盤モデルとロボットの融合〜マルチモーダルAIでロボットはどう変わるのか〜

河原塚健人、松嶋達也、講談社 KS理工学専門書、p.272、¥3630

横田 英史 (yokota@et-lab.biz)

1956年大阪生まれ。1980年京都大学工学部電気工学科卒。1982年京都大学工学研究科修了。
川崎重工業技術開発本部でのエンジニア経験を経て、1986年日経マグロウヒル(現日経BP社)に入社。日経エレクトロニクス記者、同副編集長、BizIT(現ITPro)編集長を経て、2001年11月日経コンピュータ編集長に就任。2003年3月発行人を兼務。
2004年11月、日経バイト発行人兼編集長。その後、日経BP社執行役員を経て、 2013年1月、日経BPコンサルティング取締役、2016年日経BPソリューションズ代表取締役に就任。2018年3月退任。
2018年4月から日経BP社に戻り、 日経BP総合研究所 グリーンテックラボ 主席研究員、2018年10月退社。2018年11月ETラボ代表、2019年6月一般社団法人組込みシステム技術協会(JASA)理事、現在に至る。
記者時代の専門分野は、コンピュータ・アーキテクチャ、コンピュータ・ハードウエア、OS、ハードディスク装置、組込み制御、知的財産権、環境問題など。

*本書評の内容は横田個人の意見であり、所属する企業の見解とは関係がありません。