2025年2月27日、ElevenLabsは音声認識技術(ASR)の最新モデル「Scribe v1」を正式リリースしました。

このモデルは、日本語を含む99言語で高精度な文字起こしを実現し、特に従来精度が低かった言語にも対応範囲を拡大しました。

本記事では、「Scribe v1」の特徴や性能を紹介し、後半では初心者でも音声入力で文字起こしができるLINE Botを作れる方法を紹介します。

Scribe v1 正式版の主な特徴

新たにリリースされたモデル「Scribe v1」では、以下のような性能が大幅に向上しています:

  • 従来モデルと比較して、主要言語で98%以上の高い文字起こし精度を実現

  • セルビア語、広東語、マラヤラム語など、従来精度が課題だった言語でも精度を大幅改善

  • 非音声のイベント(例:笑い声、足音)の識別と自動タグ付けに対応

開発者向け機能

ElevenLabsは、開発者が簡単にアプリケーションにScribeを組み込めるよう、APIを提供しています。

主な提供機能

  • 最大32名の話者を自動識別(ダイアリゼーション)

  • 文字レベルの正確なタイムスタンプ提供

  • 動画ファイルにも対応(最大1GB、2時間までのファイルをサポート)

Scribe v1のベンチマーク性能

ElevenLabsによると、Scribe v1は複数のベンチマークテストでトップクラスの精度を記録しています。

FLEURSベンチマーク

  • 最新モデルとして最高水準の性能を達成

Common Voiceベンチマーク

  • 同様に最高水準の性能を記録

特に多言語環境での利用において顕著な改善が見られています。

価格プランと提供状況

ElevenLabsは、無料からビジネス規模まで幅広い利用ケースに対応した料金体系を導入しています。

ここからは、Scribe v1の実用的な活用例として、LINE Botの作り方を紹介します!このLINE Botを使えば、オフラインの会議を録音し、即座に議事録を作成できます。

それでは早速みていきましょう。