Google Apps ScriptでGPT-4o miniのAPIを試してみた！マルチモーダル画像入力の精度は?

Last updated at 2024-07-21Posted at 2024-07-21

OpenAIが7月18日(現地時間)にGPT-4o miniのAIモデルを発表しました。

そこで、Google Apps Scriptを使ってGPT-4o miniのAPIを試してみました。

※以下の動画でAPIリクエスト方法を解説しています。

GPT-4o miniが登場

OpenAIがGPT-4oのコスト効率を高めたGPT-4o miniが登場しました。

GPT-4oの応答速度はそのままにGPT-4oよりも激安でAPI利用でき、ChatGPTよりも安いほどです。

こんなにも速い・安いな生成AIが登場したならば、試すしかありません。

GPT-4o miniのAPIを叩いてみた

そこでGoogle Apps ScriptでGPT-4o miniのAPIを叩いてみました。

事前に必要なものはOpenAIのAPIキーです。

下記で利用登録からAPIクレジット購入、APIキー発行まで解説しています。

APIを叩くコード

下記記事にAPIを叩くサンプルコードを配置しています。

コードをコピペし、用意したAPIキーをスクリプトプロパティ(プロパティ：APIKEY、値：APIキーの文字列)にセットすれば、実行できます。

※初回実行時は承認が求められるので、初回認証手順に従って許可してください。

その結果、このようにGPT-4o miniのAPIを実行できました。

API料金安すぎワロタ

今回、GPT-4o miniのAPIをいろいろと試した中で、かなりのトークン数を送信しました

1日で15万トークン消費したのですが、それで発生したのはなんと$0.02でした。

1ドル160円で日本円に換算すると、たった3.2円です。

あまりにも安すぎて本当かどうか疑うレベルですが、OpenAIの料金表から計算しても同じぐらいの金額です。

これならクラウド破産のような心配も必要ありません。

マルチモーダル入力も

現在のChatGPTアプリ無料版ではGPT-4o miniの場合、画像アップロードはできません(実行制限があるGPT-4oのみ可能)。

ただGPT-4o miniのAPIは画像のマルチモーダル入力にも対応してるので、画像も試してみました。

画像入力対応したサンプルコードも先ほど紹介した記事に配置しています。

※画像URLをAPIのパラメータにセットするやり方です。

GPT-4o miniの画像入力の精度は？

マルチモーダルの画像入力では2つのパターンを試してみました。

物体が何か
何個あるか

まず、初代ポケモンでお馴染みの3匹の画像です。

※ポケモン公式より引用

画像に描かれたポケモン名を尋ねてみました。

きちんと3匹とも正解できています。さらに順番も合っています。

※ポケモン公式より引用

続いて上の画像でポケモンの数を尋ねてみます。

こちらもポケモンの数を正しく認識できていました。

ただ、画像のポケモンの数を増やすと、回答も間違う確率が高くなりました。

そうした応答結果から、写っている物体数が少ない画像であればGPT-4o miniも画像認識タスクに活用できそうです。

上位モデルのGPT-4oもそうですが、複雑な画像はまだまだ業務活用など厳しいと感じました…

終わりに

今回、GPT-4o miniが新しく発表されてAPIが公開されたので、Google Apps ScriptでAPIを叩いてみました。

GASなら手軽にGPT-4o miniをAPIで試すことができました。

かなりトークンを消費したのに、API料金は激安でした。

これならAPI料金に怯えず心置きなくGPT-4o miniを使い倒せそうです。

マルチモーダルも検証したところ、シンプルな画像ならきちんと正解できるようでした。

数を数える、物体名を特定するといったタスクでGPT-4o miniが活用できるかもしれません。

まだ発表されたばかりなので、活用方法をどんどん模索していきたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up