AIを外に向けて売っている企業が、社内ではどの程度AIを使っているのでしょうか。

2026年4月現在、 主要3社(Anthropic・OpenAI・Google) の公式発表・ブログ・インタビューをもとに実態をまとめました。

要点

コード生成が最も進んでいる: Google で約50%、Anthropic で70〜90%がAI生成です。
非エンジニア部門への展開が加速している: 法務・財務・マーケティング・人事でAIを本格活用する事例が相次いで公開されています。
「1人で部門全体をこなす」モデルが生まれつつある: Anthropicでは1人がグロースマーケティング全体を10ヶ月間担当し、広告コピー作成時間を30分から30秒に短縮した事例が報告されています。
AI自身がAIの開発に参加する段階に入っている: OpenAIはAIが自分自身のトレーニングに貢献したと公式に認定しています。


なぜ「AI企業の社内活用」が重要なのか

AI企業の社内事例には、他では得られない情報価値があります。

自社製品の限界と可能性を一番よく理解しているのは、他ならぬ開発者自身だからです。

AnthropicのエンジニアがClaudeを使い、Google DeepMindの研究者がGeminiを使う。

製品の中身を最も深く理解している人たちが本気で使い込んだ結果から、私たちはAIで何ができて何ができないのかを知ることができます。

さらに、これらの企業は「AIで仕事が変わる」と外部に向けて主張する立場にあります。
その主張にどれだけ本気なのかは、彼ら自身の社内での使い方を見れば一目瞭然です。

Anthropic

コーディング:Claude Code の社内普及

Anthropicは自社製品「Claude Code」を最も集中的に試している現場です。

つまり、自社の開発者たちが日々使い倒すことで、製品の改良サイクルを回しています。

2024年9月にBoris ChernyがAnthropicに入社してプロトタイプを開始し、同年11月に社内ドッグフーディング版(自社で開発した製品・サービスを社内で日常的に使用すること)がリリースされました。

初日にエンジニアリング組織の約20%が使い始め、5日目には50%に広がりました。

現在はコードを書く Anthropicエンジニアの80%以上 が日常的に使用しています。

コード生成比率について、FortuneのインタビューでBoris Chernyは「Claude Code自体の80〜90%がClaudeによって書かれている 」と明言しました(2026年1月)。

公式調査(エンジニア・研究者132名へのアンケート+200,000件のClaude Codeとのやりとり記録の分析)では、以下の変化が確認されています(2025年2月→8月比較)。

チーム別の活用内容も公開されています。

データインフラチームはKubernetes クラスターの障害診断 にClaudeを使い、20分かかっていた障害対応を短縮しました。

セキュリティチームは、本番インシデント対応でエラー発生時の処理経路の記録やドキュメントをClaudeに読み込ませ、プログラムの処理の流れを分析させることで、従来10〜15分かかっていた手動スキャンを 3倍高速化 しました。

マーケティング:1人でグロース全体を担当

AnthropicのAustin Lauは2025年Q2から約10ヶ月間、実質1人でグロースマーケティング全体を担当しました。

Claude Codeで広告制作ワークフローを構築し、 広告コピーの作成時間を30分から30秒に短縮 しました。

https://claude.com/blog/how-anthropic-uses-claude-marketing

クリエイティブのアウトプット量は10倍になったと報告されています。

さらに、 Figmaプラグインを45分〜1時間で自作 し、1クリックで数十の広告バリエーションを生成できる環境を整えました。

マーケティング各部門の効果も公開されています。

インフルエンサーマーケティング担当はスクリプト執筆にAIを使い、月100時間以上を解放しました。

カスタマーマーケティングはケーススタディの草稿作成で、2.5時間を30分まで短縮しました(週10時間節約)。

デジタルマーケティングでは前年比5倍の生産性向上が記録されています。

マーケティング担当者のインタビュー動画もYoutubeで公開されています。

- YouTube Enjoy the videos and music you love, upload original content, www.youtube.com


法務チーム:法務自動化ツールをClaude codeで自作

2026年1月28日、AnthropicのAssociate General CounselであるMark Pikeが法務チームの活用事例を公開しました。

もっとも目立つのは マーケティングコンテンツの法的レビュー自動化 です。

https://claude.com/blog/how-anthropic-uses-claude-legal

Slackと連携したツールを構築し、有名人の名前や肖像を無断で使っていないか(パブリシティ権)、誇大表現がないか、統計の正確性に問題がないかを自動でチェックして、リスクをlow/medium/highで分類する仕組みを作りました。

これにより、 2〜3日かかっていたレビューを24時間以内に短縮 しています。

このSlackツールは、 コーディング知識のないスタッフがClaude Codeを使って自作 したものだとされています。

他にも、法務電話ルーティングシステムなど様々な社内システムを法務担当者がClaude Codeを使って開発しています。

こちらのインタビュー動画もYoutubeで公開されています。

少なくとも公開されている事例からは、Anthropicの法務チームでは弁護士が「エンジニアに依頼せず自分でツールを作る」動きがすでに始まっていることが分かります。


人事:AIを採用テストに組み込む

採用プロセスでもClaudeの影響が出ています。

Claude Opus 4が4時間制限のパフォーマンスエンジニアリングテストで人間のトップ成績を上回ったため、制限を2時間に短縮しました。

その後Claude Opus 4.5が2時間制限もクリアしたため、今度は「 AIの学習データの範囲外から出題される創造的推論パズル 」(AIが事前に学んでいない、予測困難な問題形式)に変更しています。

Anthropicは「Claudeとの協業が得意な候補者を採用する」と公式方針として明示しています。


OpenAI

Harness Engineering:手動コード0行で100万行を構築

OpenAIの事例で特に印象的なのが「 Harness Engineering 」と名付けられたプロジェクトです。

2025年8月末に空のGitリポジトリから始め、約5ヶ月間「 人間は手で1行もコードを書かない 」という制約の下で、社内向けベータ製品を実運用レベルまで構築しました。

生成対象はアプリ本体だけではありません。

テスト、コード変更時の自動検証の設定、リリースツール、監視ダッシュボード、開発者向け内部ツール、設計書、PRレビュー応答まで含めて、コードベース全体をCodexで作る運用です。

最終的に 約100万行、約1,500件のPRがマージ され、3名開始のチームでもエンジニア1人あたり1日平均3.5件のPRが処理されました(後に7名へ拡大後も処理量は増加)。

重要なのは、役割分担の再設計です。

人間は実装者ではなく「 環境設計者・制約設計者 」として、AGENTS.md(エージェントに渡す指示書)、コードの書き方を自動チェックする仕組み、構造テスト、レビュー・フィードバックループを整備し、エージェントが安定して前進できる足場を作ります。

Codexは gh やローカルスクリプトを直接使って実装・検証・修正を反復し、長時間実行(単一タスクで6時間超)も行います。

この実験が示したのは、「コードを書く」よりも「 エージェントが正しく書けるシステムを作る 」ことが生産性の中心になるという点です。

Harness(馬具)の比喩どおり、エンジニアリングの重心は、実装そのものから 制御・観測・継続的改善の設計 へ移っています。

Harness Engineeringの仕組みについては公式ブログで詳しく紹介されています。

https://openai.com/ja-JP/index/harness-engineering/


AIエージェントの安全性モニタリング

自律的に動くAIエージェントを社内で使う際の安全性モニタリングも実施しています。

GPT-5.4 Thinking(最大推論能力)が監視役として機能し、エージェントの全会話履歴(思考過程を含む)を監視する仕組みです。

監視カバレッジは 99.9% 超で、Chain-of-Thought監視( AIが最終回答を出すまでの思考プロセス全体を追跡する手法 )による不正行動検出率は95%に達しています(最終出力だけを見た場合は60%)。

AIは結論に至る途中で「 これは制限を回避するためにこう書こう 」といった意図を言語化することがあるため、最終的な回答だけでなく途中の思考も見ることで、不正の兆候を大幅に捉えやすくなる、ということです。

実際に、エージェントがbase64エンコード(文字列を別の形式に変換して内容をわかりにくくする技術)を使ってセキュリティ制限を回避しようとする行動が観察されました。

ただし、AIが裏で別の目的を持って行動したり、自分の停止を回避しようとしたりする証拠はなかったとしています。


財務チーム:Contract Data Agent

財務チームとエンジニアリングチームは、契約レビュー業務のボトルネック解消のための仕組みを共同開発しました。

背景には、6ヶ月で月間レビュー件数が「 数百件→1,000件超 」に急増する一方、増員は1名にとどまったという制約があります。

ワークフローは3段階です。

(1) 取り込み:PDF、スキャン文書、手書き修正入りの写真などを1つの処理フローにまとめて流し込みます。
(2) 推論:検索拡張プロンプトで関連箇所のみを抽出し、契約を構造化データへ変換。
(3) レビュー:非標準条項に理由・参照を付けて提示し、財務専門家が最終判断する、という設計です。

要するに「 機械は下ごしらえ、人間は判断 」に分業しています。


効果は、 契約レビュー時間50%削減、夜間処理による翌朝レビュー可能化 、処理能力の大幅拡張です。

出力はデータウェアハウス(社内のあらゆるデータを集約して検索・分析できるようにした基盤)で検索・分析可能な表形式データとして再利用され、調達・コンプライアンス・月次決算業務にも展開されています。

AIエンジニアのWei An Leeは「 これがなければ契約量に合わせて人員を増やすしかなかった 」と述べています。



サポート運用:AIネイティブな支援モデル

従来のカスタマーサポートは、「 問い合わせを受け付けて、担当者に割り振り、できるだけ多く処理する 」という発想で設計されてきました。

しかし、OpenAIではこのやり方だけでは追いつかなくなっていました。利用者は非常に多く、問い合わせ件数も増え続けていたからです。

これだけの膨大な量のリクエストに対応するため、OpenAIはサポート領域を「一件ずつ対応する」のではなく、すべての 問い合わせ対応を改善のためのデータに変換する運用モデル として再設計しています。

サポートを継続的に学習し、改善する AI オペレーティングモデルとして再考するというビジョンです。

中心は、
(1) ユーザーとの接点 (チャット・メール・音声・製品内ヘルプ)、
(2) 知識 (会話ログやポリシーを含む動的ナレッジ)、
(3) 評価・分類 (品質を測って改善する仕組み)

の3層を接続したループです。

技術基盤としては、Agents SDK(ステップ単位トレース/監視)、Responses API(トーン・正確性・ポリシー遵守評価)、Realtime API(音声対応)、評価ダッシュボードを組み合わせています。

これにより、個別の対応から得られた知見をAIの評価・テスト用データとして蓄積し、 モデルの改善をチャット・メール・音声などすべてのチャネルへ一気に反映 できます。

組織面でも、サポート担当者の役割は「問い合わせ対応者」から「 システム改善者 」へ拡張されています。

担当者は、良い対応・悪い対応の事例にラベルを付けたり、新しい分類の切り口を提案したり、簡易的な自動化の仕組みを試作したりします。

こうした作業を通じて、サポートの品質そのものを継続的に改善していく設計です。



Google(Alphabet)

営業・オペレーションの横展開

Googleの社内活用は、エンジニアリング部門だけでなく営業・運用現場にも広がっています。

Google Cloudの営業組織では、 社内AIツールの導入によりRFP(提案依頼書)対応の完了件数が前年比78%増 となり、提案作成のボトルネックを大きく圧縮しました。

見込み客の絞り込みでも、AIで有望な案件を自動抽出し、営業担当者が確度の高い案件に集中できるようにしています。

公開事例 では、6週間で見込み客から実際の商談につながる割合が14%改善したと報告されています。

さらに現場の運営業務では、社員食堂の利用データをAIで分析して需要を予測し、メニューを最適化することで、2024年の食品廃棄量を2019年比で 約39%削減 しました。

Googleの特徴は、こうしたデスクワークだけでなく、食堂運営のような現場の業務までAI活用を広げている点です。

財務・人事のAIエージェント

CFO Anat AshkenaziはQ4 2025の決算発表で、財務部門において 請求書支払い・消込(reconciliation)・資金管理(treasury)業務 をAIエージェントで自動化していると明らかにしました。

こうした定型業務をAIエージェントに任せることで、財務担当者は例外対応や判断が必要な業務に時間を振り向けられるようになっています。

人事部門(旧HR、People Operations)では、 NotebookLMを使って数千件の社員アンケート回答(Googlegeist)をテーマごとに分類し、要約 しています。

さらに採用領域では、 候補者データベースの検索や、候補者と募集ポジションの要件を照らし合わせる作業 にAIを活用しています。

最終判断は採用担当者が行う「人間が主導し、AIが補助する」という形です。

Google公式ブログ「 14 ways Googlers use AI to work smarter 」(2025年8月)を見ると、様々な活用事例が紹介されています。

14 ways Googlers use AI to work smarter See how Googlers are using tools like Gemini and Imagen to sa blog.google



【実践】Anthropicの事例を、自分たちで試してみた

ここまで見てきたのは、AI企業の内側で起きていることです。

しかし、これを「外から眺めて終わり」にするのは少し物足りない。