[android:06655] ライブカメラの映像に対して質問できるGemini 2.0

2024/12/18 23:30:44

品川です。

Be My EyesアプリのBe My AI機能では、撮影した写真をChatGPTが解析して詳しく知ることができるようになりました。
次のステップでは写真撮影しなくてもライブカメラの映像を処理できるようにすることだとアナウンスされています。

OpenAIのChatGPT有料プランではライブカメラの映像を処理できるようになっているそうなので試してみたいなぁと思っていたところ、GoogleのGemini 2.0では同じようなことが体験できるようになっています。

Podcast番組の「Double Tap - Your daily accessible technology show」で紹介されていました。

AI Gets Vision & Steven Won’t Eat Chocolate Ever Again - YouTube
https://www.youtube.com/watch?v=Y5Dp7tDcemA

番組の23分ごろから聴くことができます。
Shaun Preeceさんは屋外を歩くときに使えないだろうかと試しておられます。
胸ポケットにスマートフォンを入れて歩くわけですが、声で質問すればすぐに答えが返ってきます。
「何が見える」
「目の前に障害物があれば教えて」
「車が止まっていれば教えて」
などとリクエストしていました。

ああ、これができたら便利そう!
そう思って私も試してみました。
日本語でのやり取りは可能です。
しかし、「目の前に車があれば教えて」、「部屋の中にボトルがあれば教えて」のようなリクエストに対しては対応してもらえませんでした。
「書かれている文字を教えて」のようなリクエストに対しては日本語の文字も読んでくれます。

まだ試験的な機能なのでGeminiアプリでは利用できません。
また、歩きながら使うことは危険ですので、屋外で利用する場合は安全な場所に停止して試すのが身のためです。

ウェブブラウザでアクセスすればよいだけなのでAndroidでもiPhoneでも利用できます。
Windowsマシンではウェブカメラの映像だけでなくスクリーンの映像もモニターしてくれるようですが、私の環境ではうまくいきませんでした。

Stream Realtime | Google AI Studio
https://aistudio.google.com/live

Cameraボタンを実行するだけの操作です。

話題の一覧へ　次ページへ　　前ページへ　　　　　戻る