はじめに:なぜ今、CLIなのか
Codex、Claude Code、OpenClawのようなAIエージェントを使っていると、ターミナルやCLIという言葉に何度も出会います。
エンジニアにとっては昔からある道具だと思いますが、一方で非エンジニアの方にとっては『コマンドを打つ専門的な画面』というイメージが強く、名前すら聞いたことがない人も少なくないと思います。
しかし最近、このCLIが急に重要になってきています。
実際、Google Trendsで「CLI」を見ると、2024年は30台だった検索関心が、2025年夏から大きく伸びています。2026年3月には、2004年以降の期間内ピークである100に到達しています。

OpenClawの開発者であるPeter Steinbergerや、OpenAI創業メンバーのAndrej Karpathyも、AIエージェントとCLIの相性に触れています。

この記事で目指すのは、AIに渡せる形でCLIを見直し、自分用の小さなCLIを1本作ってみること です。
要点は3つです。
CLIは、AIが扱いやすい操作面です。 入力も出力もテキストで、実行結果がログに残ります。
CLIにしておくと、同じ作業を再実行しやすいです。 毎回プロンプトで説明し直さず、同じコマンドを呼べます。
CLIは、自分で全部書かなくて大丈夫です。 CodexやClaude Codeに作らせることができる。
そもそもCLIとは何か
そもそもCLIとは何でしょうか?
ざっくり言うと、文字でソフトを操作する方法です。アプリのボタンを押す代わりに、git status や ffmpeg -i input.mp4 output.mp3 のような文字列で指示を出します。
このとき、よく混ざる言葉が3つあります。ターミナル、シェル、CLIです。

ターミナル: 文字を表示し、キーボード入力を受け取るアプリです。macOSのターミナル.app、iTerm2、Warp、Ghosttyなどがこれに当たります。
シェル: ターミナルの中で動き、入力された文字を解釈するプログラムです。zsh、bash、fish などがあります。
CLI: Command Line Interfaceの略です。文字コマンドでソフトを操作する方式、またはその方式で使う道具を指します。git、gh、yt-dlp、ffmpeg のようなものです。
まずはこの3点を抑えるだけで大丈夫です。
ターミナルは画面。シェルは入力を解釈するプログラム。CLIは文字でソフトを操作する方法。
CLIの背景には、Unixという古いコンピュータ文化があります。
Unixは1969年ごろにBell Labsで生まれ、その後、「 | 」 という記号でコマンド同士をつなぐ「パイプ」という考え方が広まりました。
パイプの発想はシンプルです。
1つの巨大なアプリですべてを完結させるのではなく、小さな道具をつなぎ合わせて、目的の作業を進めるという、今のAIエージェントともかなり相性が良い考え方です。
ChatGPTのComputer Useなどを触ったことがある人は気づいている方も多いと思いますが、AIは画面上のボタンを探すよりも、テキストのコマンドを実行し、返ってきた結果を読んで次のコマンドを選ぶことの方が得意です。
CLIはAIに仕事を渡しやすい形として、いま改めて重要になっています。
AIエージェントに毎回頼む場合と、CLIにしておく場合
AIエージェントに作業を頼むと、最初は会話だけで十分に感じます。
でも、同じ作業を何度か頼むと、少しずつ面倒に感じてきます。それは
毎回、前提を説明する必要がある
出力形式が少しずつ変わる
どこで失敗したのか追いにくい
外部サービスやローカルデータにアクセスできない
などの理由からです。
特に大きいのが、データへのアクセスです。
世の中には、AIが会話だけでは触れないデータがたくさんあります。SNSの会話ログ、Xの投稿、家計データ、健康データ。人間はアプリを開けば見られますが、AIが取得するのは簡単ではありません。
そういう場所こそ、CLIをひとつ挟むだけで、AIが触れる形になります。
AIに任せたい作業がある人ほど、CLIの恩恵を受けやすくなります。
同じ作業を何度もやるなら、プロンプトを書き直すより、CLIに固定したほうが速いです。
CLIにしておくだけで、こんなに変わります:
AIは毎回同じコマンドを呼べる
AIエージェントが --help を読めば、別のセッションでも使い方を確認できる
実行ログが残るので、失敗した場所を追える
--json を返せば、次のAI処理に渡しやすい
書き込み前に --dry-run で確認できる
一回だけの作業なら、プロンプトで頼めば大丈夫です。
一方で、何度もやる作業、失敗を切り分けたい作業、別のAIにも同じ結果を出させたい作業は、CLIにしておくと一気に扱いやすくなります。
AIエージェントとCLIの相性が良い理由
AIが読める形で結果が返る: CLIは結果を文字で返します。AIはその文字を読んで、次の判断をできます。スクリーンショットを見てボタンを探すより、ずっと安定します。
同じ作業を繰り返せる: 同じコマンドをもう一度実行すれば、同じ手順を再現できます。記事作成、ログ集計、音声文字起こし、Discord検索のような定型作業に向いています。
失敗した場所を見つけやすい: コマンド、出力、エラーが残ります。AIが失敗しても「何となくうまくいかなかった」ではなく、「このコマンドのこの出力で止まった」と見られます。
次は、普段著者が実際に活用しているCLIを具体的にご紹介していきます。
普段AIに渡しているCLIの例
まずは、記事やリサーチの素材を作るCLIからです。
① 素材を作る:yt-dlp / ffmpeg / 文字起こしツール
動画や音声を記事素材にするときに使うCLIです。yt-dlp で動画やXの投稿情報を取り込み、必要に応じて ffmpeg で音声に変換します。
そのあとは、Whisper、Gemini API、あるいは普段使っている文字起こしツールでテキスト化します。いきなり動画をAIに見せるのではなく、AIが読みやすいテキストに変換してから渡す という順番です。
これができると、AIに「この動画を要約して」と頼むだけで終わらず、特定の時間帯だけを確認したり、引用候補を探したり、記事構成に使える論点を抜き出したりできます。
例えば、AIエージェントにはこのように頼めます。
yt-dlp でhttps://www.youtube.com/watch?v=EN7frwQIbKc&t=2sの動画の音声を取得し、必要なら ffmpeg で文字起こししやすい形式に変換してください。その後、Whisperなど、使える文字起こしツールでテキスト化してください。最後に、要点、引用候補、記事で使えそうな論点をまとめてください。

ただし、初回は yt-dlp や ffmpeg のインストールを求められることがあるのと、動画取得や変換はファイルが大きくなりやすい点に注意が必要です。
② コミュニティを読む:Discordログ用CLI
Discordのログをローカルに取り込み、検索や分析をしやすくするCLIです。著者の環境では Peter Steinberger が公開している discrawl という道具を使っています。
AGIラボはDiscord上で質問、相談、トラブル報告などを行なっています。会話そのものが重要な一次情報になります。
例えば、AGIラボのLP改善やコミュニティ運営の論点を整理するとき、discrawl でDiscordのローカルアーカイブを作り、チャンネル別・時系列・キーワード別に確認します。人間がDiscordをスクロールして探すのではなく、AIに「この期間の質問と相談を拾って」と頼める状態になります。


