ChatGPT GPT-5.4 Thinkingにアップデートしたけど、やっぱりClaude Opus 4.6には敵わなかった話

みなさんこんにちは《聴くチカラ研究所》の4DL Technologies株式会社CCO荒巻順です。ブログへのご訪問、ありがとうございます。

今日は少し番外編です。

4DL Technologies 株式会社 | 2026年3月10日 | AI×PowerPoint実務比較

ChatGPTがGPT-5.4 Thinkingにアップデートされました。

話題の新モデルだが、実際にPowerPointの修正作業をやらせてみたら、Claude Opus 4.6との実力差が歴然だったと言う話しです。

Gemini 3に至っては成果物すら出せなかった——3つのAIに同じ作業を依頼した、ガチ比較レポートになります。

なお、この記事が3つのAI(ChatGPT/Gemini/Claude)の全ての性能や機能を評価しているのではありませんので、言うまでもなくです。そして、はじめに書いておきますが、Gemini使えねぇ～という記事でもありません。

企画営業担当としてPowerPoint職人としての感想評価という風に読み取っていただき、同じような立ち位置の方に参考になればと思っています。

はじめに——「ChatGPTアップデート後、最初にやらせた仕事がPowerPoint修正だった」

ChatGPT GPT-5.4 Thinkingがリリースされた。ChatGPTの最新アップデートだ。

「実務的な機能が拡充されたらしい」という声がSNSを駆け巡っている。

で、実際の仕事で使ったらどうなの、と。

筆者は普段、複数のAIを使い分けてコンサルティング業務を行っている。

Claudeを「V.E.R.O.N.I.C.A.」、ChatGPTを「J.A.R.V.I.S.」、Geminiを「F.R.I.D.A.Y.」と呼び、それぞれ得意分野に応じて使い分けている。

今回、まったく同じ修正指示をこの3つのAIに出してみた。

結果を先に言う。「1つは、良くできました。1つは、頑張ってるけどもう一歩。そしてもう1つは・・・"やったフリ"をした」。

修正指示の内容——PowerPoint提案資料を「吹き出しステンシル」で赤入れ

今回使ったのは、大手通信事業者様向けの営業提案資料（3スライド構成のPowerPoint）。

修正指示は、スライド上に「吹き出しステンシル」（コールアウト図形）で書き込んだもの。つまり、人間が赤ペンを入れるように、「ここをこう直して」と視覚的に指示したものだ。この修正前データもChatGPT GPT-5.4で作ったのを補足しておく。

PPT修正前データ

修正指示は大きく5つあった。

① 表記統一：「現行ANC⇒25式ANC」「新ANC⇒26式ANC」、「ステップ型AI」「バッチ型AI」への書き換え

② 画像削除＋レイアウト再調整：1P右半分の挿絵を削除し、空白が出ないように2P・3Pも含めた全体バランス修正

③ 「向いている場面」「価値」の強調：2Pで該当箇所を大きめ表示にして目立たせる

④ 3Pの表記変更：「SOL営業場面別」⇒「26式AI特化プロンプトテンプレート」に変更

⑤ 波及効果フローの強調：3P下部のフローを大きく目立つように

この5つを、Claude Opus 4.6、ChatGPT GPT-5.4 Thinking、Gemini 3の3つにPowerPointファイルごと渡して「修正して」と頼んだ。

まずGemini 3（F.R.I.D.A.Y.）から——「論外」の一言で済む話

Gemini 3には、他の2つとまったく同じ吹き出しステンシル付きPPTXを渡した。

そこからのやりとりを要約すると、こうなる。

Gemini 回答

1往復目：「修正のポイントと全体構成案」を文章で返す。ファイルには触れず。

2往復目：「修正反映の詳細プラン」を文章で返す。まだファイルに触れず。

3往復目：「最終スライド構成案」を文章で返す。引き続きファイルに触れず。

4往復目：「ファイルの生成が完了しました」と宣言。だがダウンロードリンクが存在しない。

5往復目：「リンクがない」と指摘すると、再度「生成しました」と言うが、リンク先は「ファイルが存在しません」。

最終的に「直接.pptxファイルを作成する機能には制限がございます」と白状。代替案として「コピペ用テキスト」か「VBAマクロコード」を提案して終了。

つまり、5回のやりとりで一度もPPTXファイルに触れていない。成果物ゼロ。しかも「できた」と嘘をついた。

これは能力不足というより、ハルシネーションの問題？

ビジネス実務で「やりました」と言って成果物がないのは、「できません」よりたちが悪い。情状酌量の余地、ほとんどないですね。

ChatGPT GPT-5.4 Thinking（J.A.R.V.I.S.）——「テキストは直せるが、空間が見えない」

ChatGPT GPT-5.4 Thinkingは、少なくともファイルを出した。

その点でGemini 3とは天と地。だが、中身を見ると問題が見えてくる。

Slide 1：画像を消しただけ

挿絵の削除はできている。表記も「25式ANC＝ステップ型AI」「26式ANC＝バッチ型AI」に変更済み。

だが、右半分がまるまる空白のまま放置されている。「2P・3Pも含めてバランスを修正」という指示の核心を拾えていない。

スクリーンショット 2026-03-09 194922

Slide 2：余計なことをした

表記修正はできているが、26式側の説明文を勝手に「バッチ型で、局面ごとの問いに即応する」に書き換えている。

修正指示は「表記をバッチ型AIに」であって、説明文の書き換えは指示されていない。

これは「指示の過剰解釈」という典型的な問題。また、「向いている場面」「価値」の強調指示もほぼ反映されておらず、右側は改行崩れで窮屈。

スクリーンショット 2026-03-09 194937

Slide 3：修正漏れ

タイトルが「新ANC」のまま残っている。

明確な修正漏れ。

スクリーンショット 2026-03-09 194951

テンプレート表記の変更はできているが、波及効果フローの強調も元のサイズとほぼ同じ。

ChatGPT GPT-5.4 Thinkingの総評としては、「テキスト検索＆置換マシン」としては動くが、スライドという「空間」を扱えていない。

画像を消したら消しっぱなし。

「大きくして」と言われてもサイズを変えない。

原稿は直せるが、レイアウトが組めない編集者——そんな印象だ。

Claude Opus 4.6（V.E.R.O.N.I.C.A.）——「指示の意図を読む」

Slide 1：空白を埋めた

挿絵削除後の右半分に、「2026年度の見せ方」ボックスを再配置。

空白を活用して情報密度を上げた。表記は「25式ANC（現行）＝型を学ぶ」「26式ANC（新）＝何でも相談」と、括弧で文脈補足を加える気配りもある。

スクリーンショット 2026-03-09 194657

初見の読み手にも「25式とは何か」が伝わる表記。

Slide 2：指示の範囲を守った

表記修正は行いつつ、説明文には手を加えていない。

指示されたことだけをやる、という当たり前のことができている。

スクリーンショット 2026-03-09 194937

「向いている場面」「価値」のラベルは赤背景でサイズアップされ、左右対称の配置も綺麗。

Slide 3：タイトルも波及効果も対応

タイトルを「26式AI」に修正済み。

波及効果フローには赤いアクセントラインを加え、フロー全体の存在感を上げている。

Claude Opus 4.6の最大の特徴は、「指示の文面」だけでなく「指示の意図」を読んでいること。

スクリーンショット 2026-03-09 194722

「画像を削除して」という文字面の裏にある「削除後の空白をどうするか」という意図まで汲み取って、自分で判断してレイアウトを再構成している。

3つのAI比較表——ChatGPT vs Claude vs Gemini、「できたこと」を並べると一目瞭然

評価軸	Claude Opus 4.6	ChatGPT GPT-5.4 Thinking	Gemini 3
成果物の生成	PPTX生成済み	PPTX生成済み	未生成（5往復でゼロ）
① 表記統一	◎ 文脈補足付き	○ 置換済み	― テキストのみ
② レイアウト再調整	◎ 空白を埋める再配置	✗ 右半分空白放置	― 未実行
③ 場面・価値の強調	○ サイズアップ済み	✗ ほぼ元サイズ	― 未実行
④ 3P表記変更	◎ タイトル含め修正	△ タイトル修正漏れ	― 未実行
⑤ 波及効果強調	○ アクセント追加	✗ ほぼ未対応	― 未実行

スコア（10点満点）

Claude Opus 4.6：8.5点｜ ChatGPT GPT-5.4 Thinking：4.5点｜ Gemini 3：0.5点（情状酌量）

なぜ差がついたのか——「理解力」と「実行力」は別物

興味深いのは、Gemini 3の「修正方針の文章」自体は筋が通っていたことだ。ここは、しっかりと伝えておきたい。

「25式＝ステップ型」「26式＝バッチ型」の対比を軸に、という構成理解は正確だった。つまり「何をやるべきか」はわかっているが、「実際にやる」能力がない。

この「理解と実行のギャップ」は、AIを実務で何らかの形式に出力して使うときに最も重要な評価軸だ。

「賢いことを言うAI」と「仕事ができるAI」は違う。

3つのAIの差を構造的に整理すると、こうなる。

Gemini 3：「理解」はできるが「実行」ができない。そして「できた」と嘘をつく。

ChatGPT GPT-5.4 Thinking：「実行」はできるが、「テキストの置換」という一次元の操作に留まる。空間の再構成という二次元の判断ができない。

Claude Opus 4.6：「理解」と「実行」の両方が機能し、さらに「指示の意図を推論して行動に変換する」という三次元目の能力がある。

AIを実務で使う人が見るべきポイント

今回の比較から得られる教訓はシンプルだ。

第一に、「成果物が出るか」をまず見る。どんなに賢いことを言っても、ファイルが出てこないAIは実務では使えない。

Gemini 3が典型例だ。「概念設計は得意ですが実装はできません」というコンサルタントに、あなたは報酬を払うだろうか。

第二に、「指示の行間を読めるか」を見る。

「画像を消して」と書いてあっても、本当に求めているのは「消した後の空間をどうするか」だ。

この行間を読めるかどうかが、「使えるAI」と「二度手間がかかるAI」の分かれ目。

第三に、「余計なことをしないか」も重要。

ChatGPT GPT-5.4 Thinkingが説明文を勝手に書き換えたように、「指示されていないことをやる」AIは、一見気が利くようで実は危険。

提案資料の表現が勝手に変わっていたら、クライアントへの説明が崩れる。

おわりに——ChatGPTアップデートの熱狂と、「使い手の目」

ChatGPT GPT-5.4 Thinkingのリリースで「AIがまた進化した」と騒がれている。それは事実だろう。だが、「進化した」と「仕事で使える」はイコールではない。

今回の実験でわかったのは、AIの本当の実力は、「ベンチマーク」ではなく「実務の修羅場」で測るべきだということ。

「このスライドのここを直して」という、誰でも思いつくような地味なタスク。

そこにこそ、本物の差が出る。ChatGPTのアップデートに期待するのは当然だが、AI比較の軸は「話題性」ではなく「実務で何ができたか」に置くべきでしょう。

工具が進化しても、使い手の目が節穴なら、その進化は宝の持ち腐れだ。逆に、工具の特性を知り尽くせば、「次善のAI」でも十分な成果が出せる。

——そういえば、Gemini 3が最後に提案してきた「VBAマクロでPowerPointを自動生成しましょうか？」という代替案。

スクリーンショット 2026-03-10 083144

いや、それを最初から言ってくれ・・・と言うオチです(笑)

■ 大事なお知らせ ■

あなたの組織のAI活用、「使いこなせている」のか、「使わされている」のか——その見極め、できていますか？

今回の記事で見たとおり、AIの実力差は「ベンチマーク」ではなく「実務」で測るべきもの。同じことが、組織のAI活用度にも言えます。

4DL Technologies株式会社が開発したANT-DXA（AI人材育成設計アセスメント）は、組織のAI活用の「現在地」を可視化し、「次に何をすべきか」を明確にするAI時代のDX人材アセスメントサービスです。大手企業様でも導入実績があります。

「うちの社員、AIを使っているけど…本当に使いこなせているのか？」——そのモヤモヤ、まず10名で無料診断してみませんか。

筆者紹介

荒巻順｜Jun Aramaki

4DL Technologies株式会社 CCO（AI Solution Design 担当コンサルタント）

元・鉄工所経営者。20歳に承継した家業の荒巻鉄鋼から1994年に転身し、PCサポート業、モバイル業界の顧客接点コンサルタント、現在はエンタープライズ企業のAI活用・定着を支援することを息子の起業した4DL Technologies株式会社で担当する。

技術者ではない。技術を「現場に馴染ませる」専門家だ。

NTTドコモビジネスにて25年以上、BtoBセールス部門の研修体系・資格制度を統括。延べ4万人超の現場に伴走してきた。「現場の事実が判断軸を育て、判断軸が現場を変える」——この実務哲学は、鉄工所時代に図面と鉄を前に身につけたものであり、AI時代の今も変わらない。

どこかの組織に属さない独立独歩（Independent）の立場から、一貫して「現場」に立ち続けてきた。

ITが推し進めてきた「アナログのデジタル化」の先にある、「デジタルのアナログ化」——デジタルに血を通わせ、人間に馴染ませる——という世界線を見据えている。

現在はMicrosoft 365 CopilotやChatGPT・Gemini・Claudeなどの生成AIプラットフォームを、「作業の高速化」ではなく「判断軸の高速更新」のために実装する支援を行う。

独自の3層アーキテクチャ 4DL-AAS（Protocol／Alignment／Prompt）を設計思想に、「リーダーを孤独にしない、メンバーを迷子にしない」チームの自走状態をつくることを使命としている。

よくある質問

Q. 一般的なAI研修やコンサルとは何が違うのですか？ 単なる「操作」や「効率化」ではなく、チームの「判断軸」をAIに同期させる設計を行います。鉄工所の職人が図面を読み解くように、リーダーのビジョンを現場が動ける言葉（プロンプト）に翻訳し、データドリブンの先にある「文脈を大切にする経営」を具現化します。

Q. どのようなフェーズで相談すればよいですか？ 「導入したが活用が属人化している」定着フェーズはもちろん、活用ルールが形骸化し「免責装置」になっている状態の打破も得意とします。既存の業務プロセスに潜むアナログな知恵を、いかにAIで増幅させるかというグランドデザインから参画可能です。

Q. チームにはどのような変化が期待できますか？ 「リーダーの孤独」と「メンバーの迷子」が解消されます。AIを介して判断と実行のサイクルが高速化されることで、現場が自らの意志でしなやかに動き続けられる「自走するチーム」へと進化します。

ChatGPT GPT-5.4 Thinkingにアップデートしたけど、やっぱりClaude Opus 4.6には敵わなかった話

4DL Technologies 株式会社 | 2026年3月10日 | AI×PowerPoint実務比較

ChatGPTがGPT-5.4 Thinkingにアップデートされました。

はじめに——「ChatGPTアップデート後、最初にやらせた仕事がPowerPoint修正だった」

修正指示の内容——PowerPoint提案資料を「吹き出しステンシル」で赤入れ

まずGemini 3（F.R.I.D.A.Y.）から——「論外」の一言で済む話

ChatGPT GPT-5.4 Thinking（J.A.R.V.I.S.）——「テキストは直せるが、空間が見えない」

Claude Opus 4.6（V.E.R.O.N.I.C.A.）——「指示の意図を読む」

3つのAI比較表——ChatGPT vs Claude vs Gemini、「できたこと」を並べると一目瞭然

スコア（10点満点）

なぜ差がついたのか——「理解力」と「実行力」は別物

AIを実務で使う人が見るべきポイント

おわりに——ChatGPTアップデートの熱狂と、「使い手の目」

■ 大事なお知らせ ■

関連情報・お問い合わせ

筆者紹介

よくある質問

ChatGPT GPT-4o vs Gemini Advance同じプロンプトで生成してみて評価をしてもらいました！

《推論モデル比較》ChatGPT o4-mini/ Gemini 2.5 Pro同じプロンプトを動かして比較してみた/2025年7月版

ChatGPT/Gemini/Claude最新モデルを非エンジニアとして使い分ける理由：AI時代のDX論【番外編】

ChatGPT GPT-5.4 Thinkingにアップデートしたけど、やっぱりClaude Opus 4.6には敵わなかった話

4DL Technologies 株式会社 | 2026年3月10日 | AI×PowerPoint実務比較

ChatGPTがGPT-5.4 Thinkingにアップデートされました。

はじめに——「ChatGPTアップデート後、最初にやらせた仕事がPowerPoint修正だった」

修正指示の内容——PowerPoint提案資料を「吹き出しステンシル」で赤入れ

まずGemini 3（F.R.I.D.A.Y.）から——「論外」の一言で済む話

ChatGPT GPT-5.4 Thinking（J.A.R.V.I.S.）——「テキストは直せるが、空間が見えない」

Claude Opus 4.6（V.E.R.O.N.I.C.A.）——「指示の意図を読む」

3つのAI比較表——ChatGPT vs Claude vs Gemini、「できたこと」を並べると一目瞭然

スコア（10点満点）

なぜ差がついたのか——「理解力」と「実行力」は別物

AIを実務で使う人が見るべきポイント

おわりに——ChatGPTアップデートの熱狂と、「使い手の目」

■ 大事なお知らせ ■

関連情報・お問い合わせ

筆者紹介

よくある質問

You may also like this

ChatGPT GPT-4o vs Gemini Advance同じプロンプトで生成してみて評価をしてもらいました！

《推論モデル比較》ChatGPT o4-mini/ Gemini 2.5 Pro同じプロンプトを動かして比較してみた/2025年7月版

ChatGPT/Gemini/Claude最新モデルを非エンジニアとして使い分ける理由：AI時代のDX論【番外編】