アップデート1.36 テキスト生成AIモデルを5種追加

2025.03.05

アップデート項目

2025/3/5のアップデート内容を紹介します。

テキスト生成AIモデルを5種追加

テキスト生成AIモデルを5種追加

概要

これまでMaisonAIではOpenAIのGPT-4oを中心に提供してまいりましたが、昨年末のGemini追加に続き、この度さらにOpenAI社の新モデル「GPT-o1」「GPT-o1-mini」「GPT-o3-mini-high」とAnthropic社の「Claude 3.5 Sonnet」「Claude 3.5 Haiku」を導入いたしました。
多様な特徴を持つ複数のモデルが追加されたことで、短文から長文処理、画像解析まで、より幅広い用途に対応できるようになりました。今後もユーザーの皆様のニーズに合わせ、適宜モデルの追加やアップデートを行ってまいります。

各AIモデルの特徴

カテゴリーごとのランキング

AIの特性によって評価基準が異なるため、文章生成や数学などのカテゴリーごとにランキングを作成しました。

グラフ引用元：Artificial Analysis.ai

ベンチマーク名	説明
知識・推論力テスト（MMLU-Pro）	教科書的な知識から一般常識まで幅広い分野をカバーし、回答の正確さや論理的な推論力を総合的に評価します。
総合的知識・推論テスト（Humanity's Last Exam）	社会や文化、人文領域などを含め、多面的な問題を通して高度な知識と推論力を試すユニークなベンチマークです。
ライブコーディング評価（LiveCodeBench）	実際にコードを生成・実行し、その結果を評価するベンチマークです。動くプログラムを作れるかどうかを重視します。
科学的推論テスト（GPQA Diamond）	科学分野における知識や論理思考力を問うベンチマークで、科学的根拠にもとづいた推論の精度をチェックします。
科学系コーディング評価（SciCode）	科学的な計算やデータ処理をコーディングで解く問題が中心。プログラムの正確性や効率性が重要になります。
プログラミング基礎評価（HumanEval）	割り算や文字列処理など基本的な実装力を図る問題が多く、初歩的かつ汎用的なプログラミングスキルが問われます。
定量的推論テスト（MATH-500）	数学的な問題解決力、数式や数値を扱う推論力を総合的に評価するベンチマークです。
数学競技レベルテスト（AIME 2024）	数学オリンピックや競技数学を意識した高度な問題が中心で、複雑な計算力や深い論理思考を必要とします。

性能一覧

Maison AI内で出来る事や特徴などをまとめています。

モデル名称	特徴	外部参照	ファイル解析	画像解析	速度	精度	コスト	文字数
GPT-o1	Open AIの大規模推論モデル。段階的な思考を行い数学・プログラミング等が得意、応答は遅くコストも高い。	×	○	×	低速	最高	最高	96,000文字
GPT-o1-mini	Open AIの軽量型推論モデル。推論力を維持しつつ高速応答と低コストを実現。シンプルな質問に対応。	×	○	×	高速	高	中	96,000文字
GPT-o3-mini-high	Open AIの最新小型推論モデル。単発問題に対し高速かつ高精度な回答を生成するが、長文対話は苦手。	○	○	×	中速	最高	中	96,000文字
GPT-4o	Open AIの汎用型モデル。複雑な指示に正確に対応し、品質とコストのバランスに優れ、日常業務に適している。	○	○	○	中速	中	中	96,000文字
GPT-4o mini	Open AIの低コスト軽量モデル。高速処理で長文や多件リクエストに迅速かつ安定して対応。	○	○	○	高速	低	低	96,000文字
Gemini 1.5 Pro	Googleの大量テキスト処理向け高性能モデル。豊富な知識で企画書作成や複雑な分析に対応。	○	○	○	中速	中	中	1,000,000文字
Gemini 1.5 Flash	Googleの大量テキスト処理向け高速モデル。会議記録や資料要約に迅速かつ低コストで対応。	○	○	○	高速	低	低	500,000文字
Claude 3.5 Sonnet	Anthropicの高精度高速モデル。グラフや画像を解析してレポート作成など、文書を丁寧に作成する。	×	○	○	高速	高	中	100,000文字
Claude 3.5 Haiku	Anthropicの軽量型高速モデル。短文問い合わせや翻訳、要約に即応し、日常業務の情報整理に適している。	×	○	×	高速	中	低	100,000文字

使い方

[アカウント設定]から[テキスト生成モデル] を選択して[変更]を押してください。