知ってトクするモバイルライフ フォロー

「AIが視覚を持つ日」グーグルが示したアンドロイドの進化

石野純也・ケータイジャーナリスト
世界最大のモバイル関連見本市「MWC」がスペイン・バルセロナで開催された=記事中の写真はすべて筆者撮影
世界最大のモバイル関連見本市「MWC」がスペイン・バルセロナで開催された=記事中の写真はすべて筆者撮影

 スペイン・バルセロナで3月3~6日、毎年恒例の「MWC」(モバイル世界会議)が開催された。MWCでは、世界各国から通信事業者やスマホメーカーなどが一堂に会し、最新の製品や技術、サービスをアピールする。今後、業界が進む方向が見えてくるイベントだ。

「マルチモーダル」の未来

 今年のMWCも昨年同様、「AI(人工知能)」一色だった。

 グーグルは、アンドロイドに標準搭載するAIアシスタント「Gemini Live(ジェミニ・ライブ)」のマルチモーダル化をアピールした。

 マルチモーダルとは、写真やテキストといった複数の情報ソースをAIの判断材料にすることを指す。現状でも写真をあらかじめアップロードしてから、音声やテキストでGeminiに質問すれば回答を返してくれるが、この写真と音声(またはテキスト)の組み合わせをAIがリアルタイムで認識し、処理できるのがマルチモーダル化だ。

 MWCでは、ユーザーがスマホカメラでとらえたリアルタイム映像を元に質問し、Geminiがそれについて答えるというデモが披露された。

 「花瓶に色をつけたいが、ミッドセンチュリーモダン(1940~60年代に米国で生まれたデザイン様式)にぴったりな色はどれ?」という質問では、ユーザーが花瓶や色のサンプルをカメラで映しながら問いかけると、Geminiがそれを踏まえた回答を返してくれた。

 このときユーザーとAIはリアルタイムで同じものを見ている。より人と話すのに近い感覚でAIと会話できるようになるというわけだ。

より低機能、低価格なスマホにもAI搭載へ

 MWCでは、より低機能、低価格なスマホにAIを搭載していく動きも見られた。

 例えばグーグルのGemini Liveは、情報をクラウド上で処理している。同社でアンドロイドOSのエンジニアリングなどを統括するシーン・チャウ氏は…

この記事は有料記事です。

残り822文字(全文1595文字)

ケータイジャーナリスト

1978年、静岡県生まれ。慶応義塾大学総合政策学部卒。2001年、宝島社に入社。当時急速に利用者数を伸ばしていた携帯電話関連のムック編集に携わる。05年には独立してフリーランスのジャーナリスト/ライターに転身。通信事業者、携帯電話メーカー、コンテンツプロバイダーなどを取材、幅広い媒体に原稿を執筆する。業界動向を記したビジネス書から、端末の解説書まで著書も多い。