ライブカメラの映像に対して質問できるGemini 2.0

06655 2024/12/18 23:30:44

品川です。

Be My EyesアプリのBe My AI機能では、撮影した写真をChatGPTが解析して詳しく知ることができるようになりました。
次のステップでは写真撮影しなくてもライブカメラの映像を処理できるようにすることだとアナウンスされています。

OpenAIのChatGPT有料プランではライブカメラの映像を処理できるようになっているそうなので試してみたいなぁと思っていたところ、GoogleのGemini 2.0では同じようなことが体験できるようになっています。

Podcast番組の「Double Tap - Your daily accessible technology show」で紹介されていました。

AI Gets Vision & Steven Won’t Eat Chocolate Ever Again - YouTube
https://www.youtube.com/watch?v=Y5Dp7tDcemA

番組の23分ごろから聴くことができます。
Shaun Preeceさんは屋外を歩くときに使えないだろうかと試しておられます。
胸ポケットにスマートフォンを入れて歩くわけですが、声で質問すればすぐに答えが返ってきます。
「何が見える」
「目の前に障害物があれば教えて」
「車が止まっていれば教えて」
などとリクエストしていました。

ああ、これができたら便利そう!
そう思って私も試してみました。
日本語でのやり取りは可能です。
しかし、「目の前に車があれば教えて」、「部屋の中にボトルがあれば教えて」のようなリクエストに対しては対応してもらえませんでした。
「書かれている文字を教えて」のようなリクエストに対しては日本語の文字も読んでくれます。

まだ試験的な機能なのでGeminiアプリでは利用できません。
また、歩きながら使うことは危険ですので、屋外で利用する場合は安全な場所に停止して試すのが身のためです。

ウェブブラウザでアクセスすればよいだけなのでAndroidでもiPhoneでも利用できます。
Windowsマシンではウェブカメラの映像だけでなくスクリーンの映像もモニターしてくれるようですが、私の環境ではうまくいきませんでした。

Stream Realtime | Google AI Studio
https://aistudio.google.com/live

Cameraボタンを実行するだけの操作です。

06662 2025/01/01 00:03:03

品川です。

Gemini 2.0 Flash ExperimentalをWindows環境で使用している動画が公開されていました。
PCのスクリーンをGeminiに開設してもらっているのですが、YouTube動画の説明はたいへん興味深いです。

AI Audio description is now here for the visually impaired! - YouTube
チャンネル名: Tony Gebhard: Gaming and Grooves
https://www.youtube.com/watch?app=desktop&v=GdZKHt29Ur0

私もYouTubeで試してみました。
シーンが変わった瞬間に自動的に説明してもらいたいのですが、それは体験できず。
しかし、「何が見える」などと質問すれば瞬時に答えてくれるのはかなり便利です。

日本語は聞き取ってくれても最初は英語でしか答えてくれません。
「日本語で教えて」などとリクエストすればその後は日本語で答えてくれるようになります。
ただし、試験版みたいなもんなので、英語でしか答えてくれないときもありました。
「コメントを読んで」とリクエストすればスクリーン上のコメントを教えてくれました。

音声解説のついていないドラマや映画、
手っ取り早く情景の説明をしてくれるかもしれませんね。

　　　　Android-ML　過去ログに戻る