テクノロジー
6日前
Visual Bank株式会社
Visual Bankが歴史テーマの日本語音声コーパスデータセットをリリース
Visual Bank株式会社は、AI学習用データソリューション「Qlean Dataset」において、歴史分野の日本語独り語り音声コーパスデータセットの提供を開始しました。このデータセットは、日本史・世界史・文化史など歴史分野を題材とした長尺の音声を収録し、音声認識、自然言語処理、生成AIの基盤モデルの学習に活用できます。

Visual Bank株式会社は、AI学習用データソリューション「Qlean Dataset」において、新たに「日本語・1話者・歴史テーマトーク音声コーパスデータセット」の提供を開始しました。このデータセットは、日本史・世界史・文化史など歴史分野を題材とした一人語りの音声を収録しており、音声認識(ASR)、自然言語処理(NLP)、生成AI基盤モデルの学習・評価に活用できます。

このデータセットは、20代〜50代の男女話者による長尺の日本語独り語り音声を収録した音声コーパスです。台本に依存しない自然な語り口を特徴とし、文脈依存の説明・話題転換・エピソード紹介を含む発話構造を保持しています。収録は44.1kHzのmp3形式で実施し、約5分〜40分の多様な音源を計約150時間収録しました。

歴史領域の専門的な語りを含むデータであるため、長文の音声入力処理、内容理解を伴うASR評価、生成AIモデルの日本語能力向上など、多様な研究・開発用途で活用できます。自然環境下の話題展開を含む実音声で構成されているため、汎化性能の検証、業務利用を想定した対話システム・教育支援AIなど、目的に応じた幅広いモデル開発に利用可能です。

Visual Bankは、国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。Visual Bankは、AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開しています。

PR TIMES [プレスリリース]
製品・サービス一覧