r2025年3月、中国のスタートアップから「ManusAI」というAIエージェントが招待制でリリースされました。
SNS上では「AGIに最も近いかもしれない」という声もあり、注目を集めています。

ChatGPT研究所は運よく招待コードを入手できたので、6人がかりで実際に使ってみました。

本記事では、ManusAIがどのようなことを目指しているのか、そして実際に何ができるのかを解説します。

【告知】ManusAI 勉強会開催します!

ChatGPT研究所が独自取得した招待コードを利用して検証した結果をいち早く共有する勉強会を開催します。

AIエージェントの導入や研究を進めている方、Manusの特徴や活用法を事前に把握したい方はぜひご参加ください。

AGIラボメンバーは無料で参加できますので、この機会にぜひ!

  • 開催日時: 2025年3月12日(水)19:00~20:00

  • 開催場所: オンライン(Google Meetを予定)

https://lu.ma/cg3vn76h

▼AGIラボ会員向け特典

上記の「ManusAI 勉強会」の録画アーカイブを以下に掲載しています。当日のスライドも含めた、全編視聴が可能です。

ManusAIの使い方

ManusAIを利用するには、現在招待制のため招待コードが必要です。ちなみに私たちは、HuggingFaceのCEOが深夜1時半頃に限定100名に配布していた招待コードを、幸運にも手に入れることができました。

ManusAIは、コードの生成やWebブラウザの閲覧などを自分で行う「自律性」が特徴とされています。
従来のチャットボットのように途中でストップせず、あらかじめ与えた目標に向けて進み続けるという点が大きな違いです。

最近でいうとOpenAIのオペレーターやDeepResearchなどと比較されています。

ManusAIの性能

ManusAIは、GAIAと呼ばれるベンチマークで高い評価を得ています。
GAIAは、一般的なAIアシスタントが現実的なタスクをどの程度こなせるかを測定する指標です。

このベンチマークでは、ManusAIが3段階の難易度すべてで新たなSOTA(最高水準)を達成しました。
たとえば「レベル1」では、ManusAIが86.5%の正解率(pass@1)を記録しています。
OpenAIのDeep Researchは74.3%
、従来のSOTAは67.9%でした。

「レベル2」でも、ManusAIは70.1%でトップです。
OpenAI Deep Researchが69.1%
、従来SOTAが67.4%となっています。
さらに「レベル3」では、ManusAIが57.7%をマークし、OpenAI Deep Research(47.6%)や従来SOTA(42.3%)を上回りました 👉

ClaudeとQwenを組み合わせた独自アプローチ

このManusAIですが、コアとなるモデルとしてAnthropicの「Claude Sonnet 3.5 Sonnet」(最新の3.7ではない)を採用していると、共同創業者のPeak氏がXで投稿しています。
さらに、アリババグループが開発した大規模言語モデル「Qwen」をファインチューニングして併用しているとのことです。

https://twitter.com/peakji/status/1898997311646437487

29のツール統合とBrowser useの採用

ManusAIは、内部的に29ものツールを呼び出せるしくみを備えており、
ブラウザ操作についてはオープンソースのBrowser useを利用し、ユーザーの代わりにWebサイトを開いたり、検索結果を取得したりできるようにしていることも確認されています(後半でも解説)。

Browser useの他にもたくさんのオープンソースプロジェクトを活用して構成されているとしています。
このツール呼び出しはサンドボックス環境で隔離されており、セキュリティの面でも一定の配慮がなされているようです。

https://twitter.com/peakji/status/1898994802194346408

実行主体は「Executor Agent」だけではない

ManusAIには、プランニングや知識管理などを担う複数のサブエージェントが存在するとされています。

計画フェーズで何が行われているかはユーザー側からは見えませんが、内部では連携しながらタスクを進めているようです。

“ラッパー”呼ばわりだけではない実用性

AnthropicのClaudeやアリババのQwenを使っていることから、「結局は既存モデルのラッパーに過ぎないのでは」という声もあがっています(特に海外ユーザーから)。

ただ、GAIAベンチマークでOpenAIのDeep Researchを上回る結果を出している点からも、統合の仕方次第で新たな価値を生み出していることは明らかです。
基盤モデルを自前で訓練するかどうかではなく、どれだけ役立つ機能に仕上げられるかが重要であることを、ManusAIは示していると言えるでしょう。


ソフトバンクの業績をManusAIに分析させてみた

ここでは、ManusAIにソフトバンクの最新の有価証券報告書を解析させ、業績や財務状況を深掘りしてもらいました。

まずはToDoを立てる

最初に著者が入力したプロンプトはこちらです:

ソフトバンクの最新の有価証券報告書をもとに、業績や財務状況を柔軟に分析して、トレンドとか重要なポイントを色んな方法で分かりやすく可視化してもらえますか?分析方法やコーディング手法はおまかせします。

するとManusAIが最初に「有価証券報告書を入手する」「財務データを抽出・構造化する」「可視化ダッシュボードを作る」など、18項目のToDoをリスト化しました。
ManusAIは、この手順通りに一つひとつタスクを進めていきます。
連続実行が可能なので、途中で止まらずにコードを生成・実行し、足りないライブラリをインストールするところまで自動で対処しています。

徹底的なリサーチと分析

ManusAIはPDF解析に手こずると、今度はIRサイトからExcelやCSVデータを探しに行きました。

膨大なページをスクレイピングし、売上高や営業利益、キャッシュフロー、セグメント別の業績などを取得してコードで整理します。
その後は、売上高成長率やROEなどの主要指標を自動計算し、さらにグラフ化するためのスクリプトも生成して実行。

結果として、売上高や利益率などの推移を視覚的に把握できるダッシュボードが出来上がりました。

幅広い指標と深いレポーティング

分析結果はエグゼクティブサマリーと詳細レポートにまとめられ、セグメントごとの変化や利益率の推移が数枚のグラフで可視化されます。
1つの財務指標に限らず、利益率・安全性指標・成長性指標など多角的な分析を行ってくれています。
必要があれば追加のライブラリをインストールしたり、新たなコードを生成して再度実行するフローも自動化されています。

作成されたソフトバンク株式会社 財務分析総合レポートは16ページに及ぶため、気になる方は以下からチェックしてみてください。

/assets/n5efd76856cb3_e8e7024a2d00aefc1ab94973b2ae8754.pdf

長時間の自律実行と高度なカスタマイズ

今回の分析にはかなりの時間がかかりましたが、ManusAIは途中で中断することなく連続して作業を進めてくれました。
実際、TODO作成からレポート提出までかかったのは43分でした。

ここから先の内容では、追加の活用事例や実際に使ってみて感じた課題を深掘りしていきます。