最近、新世代の生成AIとして”推論モデル”といったキーワードを耳にする機会が増えていませんか?
推論モデルって今までの生成AIと何がちがうのかという視点で実際動作させ、どのような違いがでるのかという事例を通じて学んでいただきます。
皆さんは、OpenAIのChatGPT、GoogleのGeminiなどの生成AIの名称は知っていると思います。
今日は、もう少し細かく分類して OpenAI の《ChatGPT o1》とGoogleの《Gemini 2.0 Flash Thinking Experimental》という推論モデルをエンジニアではなく、ビジネスユーザーとしての目線で書いてみました。
みなさん こんにちは《聴くチカラ研究所》の荒巻順です。ブログへのご訪問、ありがとうございます。
目次
生成AI推論モデルとは
推論モデルは、ただ学習データをもとに答えを出すだけではありません。まるで人間が論理的に考えるように、複雑な文脈から仮説を立てたり、回答に一貫性をもたせたりできるのです。
では、従来の生成AIと何が違うのか。理解しやすいポイントを、以下の3つに整理してみましょう。
・データから“推測”を導き出す力
過去のデータや事例をただ再現するのではなく、そこから新たなパターンを見いだし、仮説を立てながら回答を導く。これにより、BtoB商談で想定外の質問が出ても、柔軟に対応しやすくなります。
・長文・複雑な文脈への対応
ビジネスシーンでは、長期的な視点で提案を行うケースが多々あります。新しい推論モデルは長文のやり取りにも強く、長期的な課題設定を含む商談でも、流れを途切れさせずにロジカルな回答を提示してくれるのが特徴です。
・高度な一貫性・整合性
セールスの現場では、お客様の意見や社内検討事項などが頻繁に変化します。新世代の推論モデルは、そうした変化を全体の文脈に組み込みながら、一貫性を保って回答するため、商談の軌道修正や追加提案がスムーズになります。
このように、最新の推論モデルは人間的な“推測”や“仮説立案”を取り込みながら、より精度の高い回答を導き出せるよう進化を遂げています。BtoBセールスにおいても、AIが単なる情報提供ツールではなく、”次の一手を考えるための“相談役”として活躍する時代が到来しています。ここからは、そんな新時代の生成AIをどのように評価し、使いこなすべきかを深掘りしていきましょう。
以下の2つの推論モデルでブログ記事を同じ条件で比較したい際の動作の違いとして、「ChatGPT o1の結論」と「Gemini 2.0 Flash Thinking Experimentalの結論」をお読みください。とても興味深い違いが出ていると思います。
※技術的に詳しく推論モデルの仕組みを知りたいときにはAI総合研究所 《推論モデル(resoningモデル)とは?仕組みや学習モデルとの違いを徹底解説》 は、比較表などもあり詳しく理解したい人はお勧めです。
推論モデルにブログ記事を同じ基準で評価させてみる
今回のChatGPTとGeminiの比較をするに当たっての条件は以下の通りです。
1.4DLオリジナルプロンプト設計フレームワーク《ODGC》で記述した同じプロンプトで、ブログ記事の生成をする。
2.ブログ記事の生成は《ChatGPT o1》と《Gemini 2.0 Flash Thinking Experimental》というOpenAIとGoogleの推論モデルに同じ手順で記事生成を行い、生成記事への追プロンプトでの修正は行わない。
※生成記事はこちら
記事① 《GPT o1版》ChatGPT/Gemini/CopilotでBtoBセールスを変革する:商談を制する“観察力”の磨き方
記事② 《Gemini 2.0 Flash Thinking Experimental版》ChatGPT/Gemini/CopilotでBtoBセールスを変革する:商談を制する“観察力”の磨き方
3.2つの記事を”プレーンテキスト”で《ChatGPT o1》と《Gemini 2.0 Flash Thinking Experimental》推論モデルに投入し、同じ8つの評価方法(サブ項目付き)でそれぞれを同時に評価させる。
4.評価方法と採点方法は指定せず100点満点での採点だけど推論モデルにプロンプトとして入力する。
以上の方法で評価をして見ました。
結果、ChatGPT o1は、自分の記事を83点でGeminiを82点と採点。Gemini 2.0 Flash Thinking Experimental(以下、Gemini2.0 FTE) は、自分の記事を76点でGPT o1の記事を71点と採点。
点数は、自分の記事をそれぞれ上位にするのは一緒でしたが、推論モデルとして同じ条件で比較して驚くべきは以下の総合コメントです。
ChatGPT o1の結論
・総合コメント
1つ目の記事は「ICT業界のリアルな営業現場」「ChatGPTなど生成AIの具体名」に触れており、より“業界特化・DX志向”の読者に刺さりやすい内容。
2つ目の記事は章立て・表現が整理されていて汎用的なBtoBセールス層も掴みやすく、“観察力”というテーマに集中して学べる構成が強み。
どちらも4DL Technologies株式会社やANT-B1サービスの魅力を伝えるうえで有用な記事ですが、使い分けの観点で見ると、
1つ目は「よりICT・DX文脈に興味を持つ読者向け」
2つ目は「観察力の重要性を分かりやすく解説し、広くBtoB営業層を取り込む」
といった役割分担で展開すると効果的です。
以上の観点から、総合スコアは1つ目の記事が83点、2つ目が82点という評価になりました。もちろん、双方ともターゲットや目的に応じてブラッシュアップすれば、さらに強力なマーケティングコンテンツとなる可能性があります。
Gemini 2.0 Flash Thinking Experimentalの結論
・総評
2つのブログ記事を総合的に評価した結果、記事2の方がわずかに高い評価となりました。
記事1 は、BtoBセールスにおける「観察力」の重要性に着目した点は評価できますが、ターゲット層への訴求力、サービス認知拡大、生成AI活用、リスキリングメリットの提示といった点において改善の余地が多く、71点と評価しました。
記事2 は、記事1の課題点を踏まえ、ターゲットニーズの捉え方、記事構成、読みやすさにおいて заметно な改善が見られました。コンサルティング型セールスへの転換の必要性も効果的に訴求できています。一方で、サービス訴求、生成AI活用、リスキリングメリットの具体性という点では、まだ向上の余地を残し、76点と評価しました。
・改善点まとめ
- サービス(ANT-B1)の訴求力強化:
ANT-B1 がどのような課題を解決できるのか、具体的な導入メリット、競合サービスとの差別化要素を明確に記述する必要があります。
「プロンプトデザインの高度化」「メンテナンス性向上によるノウハウアセット化」といったANT-B1独自の価値を具体的に説明する必要があります。
読者が「ANT-B1 をもっと知りたい」「導入してみたい」と思えるような、魅力的な情報提供と効果的な CTA 設計が求められます。
- 生成AIの高度活用という視点の強化:
記事のテーマである「観察力」と生成AIの関連性をより深く掘り下げる必要があります。
生成AI を高度に活用するための具体的な課題、例えば「構造的かつメンテナンス可能なプロンプト設計」の重要性、企業におけるAI活用ノウハウの定着・アセット化の必要性などを明確に提示する必要があります。
ANT-B1 が、生成AI の高度活用における課題解決にどのように貢献できるのかを具体的に説明する必要があります。
- リスキリングによる具体的メリットの明確化:
リスキリングによって、ターゲット読者が具体的にどのようなスキルを習得できるのか(例:複雑な業務を ChatGPT や Gemini で再現するプロンプト設計力、洞察力強化、視座・思考スキルの拡張など)、より詳細な記述が求められます。
リスキリングによって、どのような成果やゴール が期待できるのか(例:お客様の利益を最大化しながら自社の粗利を向上させる、商談成約率の向上、顧客単価の向上など)、具体的なイメージが湧くような説明が必要です。
- SEO対策の強化:
ターゲット顧客が検索する可能性の高いキーワード(「生成AI」「ChatGPT 活用」「B2Bコンサルティングセールス」「DX推進」など)を、タイトル、見出し、本文、メタ情報に効果的に組み込む必要があります。
キーワードを意識しつつも、読者にとって自然で読みやすい文章になるよう、キーワードの出現頻度や配置場所を最適化する必要があります。
・今後の記事作成に向けて
- ターゲット顧客の解像度を高める: 記事を読む想定読者(ICT業界30代B2Bセールス)のペルソナをより詳細に設定し、彼らが抱える具体的な課題、ニーズ、興味関心を深く理解する。
- サービス訴求と課題解決のストーリーを明確にする: ブログ記事全体を通して、ANT-B1 がターゲット顧客の課題をどのように解決し、どのような価値を提供できるのか、ストーリー性のある展開を意識する。
- エビデンスに基づいた説得力を強化する: 成功事例、顧客の声、データ、統計情報などを積極的に活用し、記事の信頼性と説得力を高める。
- 読者Actionを促す導線を最適化する: 記事の内容に合わせて適切なCTAを複数箇所に設置し、LPへの導線を強化する。リンクテキストも具体的で魅力的な文言にする。
- SEO対策を意識したキーワード戦略: 記事テーマ、ターゲットキーワードを明確にし、キーワード調査に基づいた SEO 対策を施策する。
まとめ(用途に合わせてモデルを使い分けよう!)
《ChatGPT o1 の結論》と《Gemini 2.0 Flash Thinking Experimentalの結論》、いかがでしたでしょうか?
同じプロンプトを使用し、同じ評価基準で分析を行いましたが、最終的な評価文の違いにお気づきでしょうか? ボリュームの違いだけでなく、内容にも差があります。
《ChatGPT o1》は「評価のまとめ」のみを生成するのに対し、《Gemini 2.0 FTE》は「評価のまとめ」に加えて「今後の改善提案」まで推論生成しています。
つまり、《Gemini 2.0 Flash Thinking Experimental》は、私がプロンプトで求めた8つの評価基準に沿った評価だけでなく、明示的には求めていない「評価をすること自体が、そのコンテンツの改善を意図している」と推論し、改善提案まで生成しているという結果になりました。
一方、《ChatGPT o1》にも「評価と合わせて、改善点を教えてください」と明確にプロンプトを指示すれば、評価後に改善点を提示するでしょう。
この結果をもって「GoogleのGeminiが推論モデルとして優れている」と断定するのは早計ですが、モデルによって推論の深さに違いがあることは明らかです。
ちなみに、推論の側面では《Gemini 2.0 Flash Thinking Experimental》を高く評価していますが、生成される文章の安定性という点では、不安定な印象を持っています。特に、以前の《Gemini Pro 1.5》が非常に安定していたことと比較すると、その差が際立ちます。
不安定性の例として、文章中にロシア文字やハングル文字が混ざる現象が依然として発生しています。このような現象は《ChatGPT o1》では一切見られません。そのため、ChatGPTは言語翻訳を含めた生成の安定性が高いと感じます。
そもそも、生成AIは内部で英語ベースの処理を行い、日本語に翻訳するプロセスを含みます。
しかし、《Gemini 2.0 Flash Thinking Experimental》では、登場以来この翻訳の安定性が改善されていない印象があります。これまでChatGPTを使用していて、まるごと英語で生成されたことはありましたが、異なる言語が混在する現象は見たことがありません。
私の使用経験から言うと、Googleの《Gemini》はプロンプトに対して「非常に人間らしい反応をする」傾向があり、生成される文章は「エモーショナルな表現を好む」という印象があります。
一方、ChatGPTは「端的で無機的な反応をする」傾向があり、生成される文章は「論理的に構成され、表現の正確性を重視している」と感じています。
この違いが、学習モデルの設計方針によるものなのか、学習データの違いによるものなのかは分かりません。しかし、生成AIが進化していく中で非常に興味深いポイントです。
今後、生成AIテクノロジーはさらに進化し続けるでしょう。その際、各モデルにはそれぞれの「癖」があることを前提に、自分の用途に最適なモデルを、その時々で適切に使い分けることが重要になると考えています。
ということで、最後に宣伝です!
生成AIを「使う」から「操る」DX人材になるためのトレーニングを4DL Technologies株式会社では提供しています。生成AIをさらに高度に使いこなしたい!作業ではなく、複雑な業務を再現したい!
4DLオリジナルのプロンプト設計フレームワーク《ODGC》は、OpenAI ChatGPTとGoogle Geminiで安定的に動作することが検証済です。
こんなエンタープライズ企業のDX推進部門やデジタル経営推進部門からたくさんの引合いを頂戴しています。ご興味のある方はぜひ資料をダウンロードしてみてください。また、生成AIトレーニングなどを提供している研修会社様との協業や、SIerとして生成AI導入支援としてのOEM提供なども可能です。