ついにOpenAIから、最新AIモデル「o1」の正式版、およびその強化版である「o1 Pro」が公開されました。
しかし、o1 Proを利用するには日本円にして約3万円かかるため、契約するか悩んでいる方も多いのではないでしょうか?
そこで、o1と最新のo1 Pro、およびGeminiやClaudeなどの他社モデルの回答を比較してみました。
o1、o1 Proの性能や基本的な使い方等はこちらにまとめています。まだお読みでない方は、こちらも合わせてご覧ください。
https://agi-labo.com/articles/n383682923a94
数学性能
まず、o1モデルが得意とする数学問題を解かせてみます。
第 34 回日本数学オリンピック予選 第二問

どの桁に現れる数字も素数であるような正の整数を素敵な数とよぶ、3桁の正の整数nであって、n+2024とn-34がともに素敵な数であるものはちょうど2つある、このようなnをすべて求めよ。
o1 Proの回答:

回答まで2分17秒で正解しました。
o1の回答:

5分43秒掛かって失敗してしまいました。

o1に新しいスレッドで再度解かせたところ、48秒で正解しました。
合計3回、それぞれのモデルに回答させましたがo1 Proは3回中3回とも正解し、o1は3回中2回正解しました。
結果をまとめると以下のようになります。

o1 Proは回答時間はまちまちで、約6分と約2分の両方が見られます。安定して正解しているものの、常に短時間で解けるわけではないことが分かります。
o1 は初回は5分以上かけて不正解、その後、1~2分程度で正解に至るケースもありました。
回答時間そのものは安定していませんが、必ずしも時間をかければ正確になるわけでもない点が特徴的です。
最終的に、o1も正解にたどり着きました。回答までのステップを比べると、o1 Proはより細かいステップで回答を導き出し、桁ごとの繰り上がりまで詳細に計算していました。一方、o1は簡潔な回答をしていることがわかります。
第 34 回日本数学オリンピック予選 第三問

一辺の長さが10の正三角形ABCがある。Aを通る円が辺BC(端点を除く)と点 Xで接し、辺AB, ACとそれぞれAでない点D, Eで交わっている。BX>CX, AD+AE=13がともに成り立つとき、線分 BXの長さを求めよ。ただしPQで線分PQの長さを表すものとする。
o1 Proの回答:

2分15秒掛かって正解しました。
o1の回答:

ちょうど1分で正解しました。
今回も両モデルとも正解しました。
評価が難しいので、o1 Proに両モデルの回答を比較してもらいました:
o1 Proモデルの分析:
- 両者とも正解であり、数学的な誤りは見当たりません。
- **o1 proの特徴**:
- 手続きが細かく、ステップが多い。
- 座標・式変形を丁寧に重ねていく、工学的・分析的なスタイル。
- **o1の特徴**:
- 幾何学的手法(点の冪)を導入することで式が簡潔になり、最後は2つのシンプルな条件から二次方程式で解を求める、洗練された印象。
- 若干、「数学的アイデア」でショートカットしているのでスマートな感じがする。
ここまでの検証から、o1 Proは丁寧に問題を解き解説も細かく行う傾向がありそうです。回答時間も、o1の2倍以上かかっています。







