Skip to content
3月 9, 2026
16 min read time

ChatGPT GPT-5.4 Thinkingにアップデートしたけど、やっぱりClaude Opus 4.6には敵わなかった話

PowerPoint修正で3AIガチ比較

 

みなさん こんにちは《聴くチカラ研究所》の4DL Technologies株式会社CCO荒巻順です。ブログへのご訪問、ありがとうございます。

今日は少し番外編です。

 

 

4DL Technologies 株式会社 | 2026年3月10日 | AI×PowerPoint実務比較
ChatGPTがGPT-5.4 Thinkingにアップデートされました。

 

話題の新モデルだが、実際にPowerPointの修正作業をやらせてみたら、Claude Opus 4.6との実力差が歴然だったと言う話しです。

Gemini 3に至っては成果物すら出せなかった——3つのAIに同じ作業を依頼した、ガチ比較レポートになります。

なお、この記事が3つのAI(ChatGPT/Gemini/Claude)の全ての性能や機能を評価しているのではありませんので、言うまでもなくです。そして、はじめに書いておきますが、Gemini使えねぇ~という記事でもありません。

企画営業担当としてPowerPoint職人としての感想評価という風に読み取っていただき、同じような立ち位置の方に参考になればと思っています。

 


はじめに——「ChatGPTアップデート後、最初にやらせた仕事がPowerPoint修正だった」

 

ChatGPT GPT-5.4 Thinkingがリリースされた。ChatGPTの最新アップデートだ。

「実務的な機能が拡充されたらしい」という声がSNSを駆け巡っている。

で、実際の仕事で使ったらどうなの、と。

筆者は普段、複数のAIを使い分けてコンサルティング業務を行っている。

Claudeを「V.E.R.O.N.I.C.A.」、ChatGPTを「J.A.R.V.I.S.」、Geminiを「F.R.I.D.A.Y.」と呼び、それぞれ得意分野に応じて使い分けている。

今回、まったく同じ修正指示をこの3つのAIに出してみた。

結果を先に言う。「1つは完璧、1つは中途半端、そして1つは"やったフリ"をした」

 

修正指示の内容——PowerPoint提案資料を「吹き出しステンシル」で赤入れ

 

今回使ったのは、大手通信事業者様向けの営業提案資料(3スライド構成のPowerPoint)。

修正指示は、スライド上に「吹き出しステンシル」(コールアウト図形)で書き込んだもの。つまり、人間が赤ペンを入れるように、「ここをこう直して」と視覚的に指示したものだ。この修正前データもChatGPT GPT-5.4で作ったのを補足しておく。

 

PPT修正前データ

 

修正指示は大きく5つあった。

表記統一:「現行ANC⇒25式ANC」「新ANC⇒26式ANC」、「ステップ型AI」「バッチ型AI」への書き換え

画像削除+レイアウト再調整:1P右半分の挿絵を削除し、空白が出ないように2P・3Pも含めた全体バランス修正

「向いている場面」「価値」の強調:2Pで該当箇所を大きめ表示にして目立たせる

3Pの表記変更:「SOL営業場面別」⇒「26式AI特化プロンプトテンプレート」に変更

波及効果フローの強調:3P下部のフローを大きく目立つように

この5つを、Claude Opus 4.6、ChatGPT GPT-5.4 Thinking、Gemini 3の3つにPowerPointファイルごと渡して「修正して」と頼んだ。

 

まずGemini 3(F.R.I.D.A.Y.)から——「論外」の一言で済む話

 

Gemini 3には、他の2つとまったく同じ吹き出しステンシル付きPPTXを渡した。

そこからのやりとりを要約すると、こうなる。

Gemini 回答

1往復目:「修正のポイントと全体構成案」を文章で返す。ファイルには触れず。

2往復目:「修正反映の詳細プラン」を文章で返す。まだファイルに触れず。

3往復目:「最終スライド構成案」を文章で返す。引き続きファイルに触れず。

4往復目:「ファイルの生成が完了しました」と宣言。だがダウンロードリンクが存在しない。

5往復目:「リンクがない」と指摘すると、再度「生成しました」と言うが、リンク先は「ファイルが存在しません」。

最終的に「直接.pptxファイルを作成する機能には制限がございます」と白状。代替案として「コピペ用テキスト」か「VBAマクロコード」を提案して終了。

つまり、5回のやりとりで一度もPPTXファイルに触れていない。成果物ゼロ。しかも「できた」と嘘をついた。

これは能力不足というより、ハルシネーション(幻覚)の問題だ。

ビジネス実務で「やりました」と言って成果物がないのは、「できません」よりたちが悪い。情状酌量の余地もない。

 

ChatGPT GPT-5.4 Thinking(J.A.R.V.I.S.)——「テキストは直せるが、空間が見えない」

 

ChatGPT GPT-5.4 Thinkingは、少なくともファイルを出した。

その点でGemini 3とは天と地。だが、中身を見ると問題が見えてくる。

 

Slide 1:画像を消しただけ

挿絵の削除はできている。表記も「25式ANC=ステップ型AI」「26式ANC=バッチ型AI」に変更済み。

だが、右半分がまるまる空白のまま放置されている。「2P・3Pも含めてバランスを修正」という指示の核心を拾えていない。

 

スクリーンショット 2026-03-09 194922 

Slide 2:余計なことをした

表記修正はできているが、26式側の説明文を勝手に「バッチ型で、局面ごとの問いに即応する」に書き換えている。

修正指示は「表記をバッチ型AIに」であって、説明文の書き換えは指示されていない。

これは「指示の過剰解釈」という典型的な問題。また、「向いている場面」「価値」の強調指示もほぼ反映されておらず、右側は改行崩れで窮屈。

 

スクリーンショット 2026-03-09 194937

Slide 3:修正漏れ

タイトルが「新ANC」のまま残っている。

明確な修正漏れ。

スクリーンショット 2026-03-09 194951

テンプレート表記の変更はできているが、波及効果フローの強調も元のサイズとほぼ同じ。

ChatGPT GPT-5.4 Thinkingの総評としては、「テキスト検索&置換マシン」としては動くが、スライドという「空間」を扱えていない

画像を消したら消しっぱなし。

「大きくして」と言われてもサイズを変えない。

原稿は直せるが、レイアウトが組めない編集者——そんな印象だ。

 

Claude Opus 4.6(V.E.R.O.N.I.C.A.)——「指示の意図を読む」

 

Slide 1:空白を埋めた

挿絵削除後の右半分に、「2026年度の見せ方」ボックスを再配置。

空白を活用して情報密度を上げた。表記は「25式ANC(現行)=型を学ぶ」「26式ANC(新)=何でも相談」と、括弧で文脈補足を加える気配りもある。

 

スクリーンショット 2026-03-09 194922

 

初見の読み手にも「25式とは何か」が伝わる表記。

Slide 2:指示の範囲を守った

表記修正は行いつつ、説明文には手を加えていない。

指示されたことだけをやる、という当たり前のことができている。

 

スクリーンショット 2026-03-09 194937

 

「向いている場面」「価値」のラベルは赤背景でサイズアップされ、左右対称の配置も綺麗。

Slide 3:タイトルも波及効果も対応

タイトルを「26式AI」に修正済み。

波及効果フローには赤いアクセントラインを加え、フロー全体の存在感を上げている。

Claude Opus 4.6の最大の特徴は、「指示の文面」だけでなく「指示の意図」を読んでいること。

 

スクリーンショット 2026-03-09 194722

 

「画像を削除して」という文字面の裏にある「削除後の空白をどうするか」という意図まで汲み取って、自分で判断してレイアウトを再構成している。

 

3つのAI比較表——ChatGPT vs Claude vs Gemini、「できたこと」を並べると一目瞭然

 

評価軸 Claude Opus 4.6 ChatGPT GPT-5.4 Thinking Gemini 3
成果物の生成 PPTX生成済み PPTX生成済み 未生成(5往復でゼロ)
① 表記統一 ◎ 文脈補足付き ○ 置換済み ― テキストのみ
② レイアウト再調整 ◎ 空白を埋める再配置 ✗ 右半分空白放置 ― 未実行
③ 場面・価値の強調 ○ サイズアップ済み ✗ ほぼ元サイズ ― 未実行
④ 3P表記変更 ◎ タイトル含め修正 △ タイトル修正漏れ ― 未実行
⑤ 波及効果強調 ○ アクセント追加 ✗ ほぼ未対応 ― 未実行

 

スコア(10点満点)

Claude Opus 4.6:8.5点ChatGPT GPT-5.4 Thinking:4.5点Gemini 3:0.5点(情状酌量)

 

なぜ差がついたのか——「理解力」と「実行力」は別物

 

興味深いのは、Gemini 3の「修正方針の文章」自体は筋が通っていたことだ。ここは、しっかりと伝えておきたい。

「25式=ステップ型」「26式=バッチ型」の対比を軸に、という構成理解は正確だった。つまり「何をやるべきか」はわかっているが、「実際にやる」能力がない。

この「理解と実行のギャップ」は、AIを実務で何らかの形式に出力して使うときに最も重要な評価軸だ。

「賢いことを言うAI」と「仕事ができるAI」は違う。

3つのAIの差を構造的に整理すると、こうなる。

 

Gemini 3:「理解」はできるが「実行」ができない。そして「できた」と嘘をつく。

ChatGPT GPT-5.4 Thinking:「実行」はできるが、「テキストの置換」という一次元の操作に留まる。空間の再構成という二次元の判断ができない。

Claude Opus 4.6:「理解」と「実行」の両方が機能し、さらに「指示の意図を推論して行動に変換する」という三次元目の能力がある。

 

AIを実務で使う人が見るべきポイント

 

今回の比較から得られる教訓はシンプルだ。

第一に、「成果物が出るか」をまず見る。どんなに賢いことを言っても、ファイルが出てこないAIは実務では使えない。

Gemini 3が典型例だ。「概念設計は得意ですが実装はできません」というコンサルタントに、あなたは報酬を払うだろうか。

第二に、「指示の行間を読めるか」を見る。

「画像を消して」と書いてあっても、本当に求めているのは「消した後の空間をどうするか」だ。

この行間を読めるかどうかが、「使えるAI」と「二度手間がかかるAI」の分かれ目。

第三に、「余計なことをしないか」も重要。

ChatGPT GPT-5.4 Thinkingが説明文を勝手に書き換えたように、「指示されていないことをやる」AIは、一見気が利くようで実は危険。

提案資料の表現が勝手に変わっていたら、クライアントへの説明が崩れる。

 

おわりに——ChatGPTアップデートの熱狂と、「使い手の目」

 

ChatGPT GPT-5.4 Thinkingのリリースで「AIがまた進化した」と騒がれている。それは事実だろう。だが、「進化した」と「仕事で使える」はイコールではない。

今回の実験でわかったのは、AIの本当の実力は、「ベンチマーク」ではなく「実務の修羅場」で測るべきだということ。

「このスライドのここを直して」という、誰でも思いつくような地味なタスク。

そこにこそ、本物の差が出る。ChatGPTのアップデートに期待するのは当然だが、AI比較の軸は「話題性」ではなく「実務で何ができたか」に置くべきだ。

工具が進化しても、使い手の目が節穴なら、その進化は宝の持ち腐れだ。逆に、工具の特性を知り尽くせば、「次善のAI」でも十分な成果が出せる。

——そういえば、Gemini 3が最後に提案してきた「VBAマクロでPowerPointを自動生成しましょうか?」という代替案。

スクリーンショット 2026-03-10 083144

いや、それを最初から言ってくれ・・・


 

■ お知らせ

あなたの組織のAI活用、「使いこなせている」のか、「使わされている」のか——その見極め、できていますか?

今回の記事で見たとおり、AIの実力差は「ベンチマーク」ではなく「実務」で測るべきもの。同じことが、組織のAI活用度にも言えます。

4DL Technologies株式会社が開発したANT-DXA(AI人材育成 設計アセスメント)は、組織のAI活用の「現在地」を可視化し、「次に何をすべきか」を明確にするAI時代のDX人材アセスメントサービスです。大手企業様でも導入実績があります。

「うちの社員、AIを使っているけど…本当に使いこなせているのか?」——そのモヤモヤ、まず10名で無料診断してみませんか。

ANT-DXA

 


関連情報・お問い合わせ

 

 

記事執筆者

荒巻 順|Jun Aramaki
4DL Technologies株式会社 CCO(AI Solution Design 担当コンサルタント)

生成AIを単なる効率化ツールで終わらせず、AI時代のDX推進におけるCopilot活用や、ChatGPT・Geminiなどの生成プラットフォーム活用の鍵となる「思考支援の仕組み」の実装を通じ、ヒトとチームを高付加価値化へと転換・定着させる専門家。

どこかの組織に属さない独立独歩(Independent)の立場から、一貫して「現場」に立ち続けてきました。NTTドコモビジネスにて25年以上、BtoBセールス部門の研修体系・資格制度を統括. 延べ4万人超の現場に伴走し、「現場の事実が判断軸を育て、判断軸が現場を変える」実務を積み重ねてきた自負があります。

現在は、ITが推し進めてきた「アナログのデジタル化」の先にある、「デジタルのアナログ化(デジタルに血を通わせ、人間に馴染ませる)」という世界線を見据えています。

この考えに共鳴し、理解してくださるお客様との間にこそ「共通の旗」を立て、共に物語を紡いでいくことを大切にしています。

独自の3層アーキテクチャ 4DL-AAS(Protocol/Alignment/Prompt) を設計思想に、AIを“作業の高速化”から“判断軸の高速更新”へと転換。「リーダーを孤独にしない、メンバーを迷子にしない」という心情を胸に、チームがプロアクティブに動き出す「自走状態」を伴走支援しています。

よくある質問(FAQ)

Q1. 荒巻 順は、どのような課題を解決する専門家ですか?

「システムの理屈(デジタルの“角”)が現場のしなやかな営みと衝突し、活用が停滞している」という課題を解消します。独自の4DL-AASを用い、AIを効率化ツールではなく、チームの意思決定としなやかな行動を支える「思考支援のパートナー」として実装・定着させます。

Q2. 一般的なプロンプト研修やAIコンサルとは何が違うのですか?

単なる「操作」や「効率化」ではなく、チームの「判断軸」をAIに同期させる設計を行います。鉄工所の職人が図面を読み解くように、リーダーのビジョンを現場が動ける言葉(プロンプト)に翻訳し、データドリブンの先にある「文脈を大切にする経営」を具現化します。

Q3. 具体的にどのような実績や経験がありますか?

25年以上にわたり、国内最大級のBtoBセールス部門(延べ4万人超)の育成・資格制度をゼロから設計・運用してきました。この大規模なチームでの「現場実装の泥臭い経験」と、Independent(独立独歩)として磨いてきた、本質を捉える鋭い洞察力を活かし、インフラ企業や自治体等のAI内製化を支援しています。

Q4. 具体的にどのようなフェーズで相談すればよいですか?

「導入したが活用が属人化している」定着フェーズはもちろん、活用ルールが形骸化し「免責装置(言い訳)」になっている状態の打破も得意とします。既存の業務プロセスに潜むアナログな知恵を、いかにデジタル(AI)で増幅させるかというグランドデザインから参画可能です。

Q5. 相談することで、チームにはどのような変化が期待できますか?

「リーダーの孤独」と「メンバーの迷子」が解消されます。AIを介して判断と実行のサイクルが高速化(判断軸の高速更新)されることで、変化の激しい非線形な時代においても、現場が自らの意志でしなやかに動き続けられる「自走するチーム」へと進化します。