Technical Specification & Legal Notice

BR-FVD解析ツール
技術仕様・ご利用規約

当社が独自開発したフェイク音声検出(FVD)システムの構成・入力仕様と、 サービスご利用にあたっての重要事項をご説明します。
ASVspoof 2019 LA ベンチマークにて EER=4.487%(RawNet2 Official)を達成しています。

System Overview

ツール構成

FVDシステムは音声から59次元の音響特徴量を抽出し、 機械学習モデルで Real(本物)/ Synthetic(AI合成)を判定します。 訓練用と解析用の2つのGUIツールで構成されます。

fvd_train_gui.py

FVD Training Tool

Real・Syntheticの音声フォルダを指定し、 特徴量設定とモデル種別をGUI上で選択して 判定モデル(pkl)を訓練・保存します。

  • 特徴量グループの個別ON/OFF選択
  • モデル種別:Random Forest / SVM / Gradient Boosting
  • スコア方式:predict_proba / Platt Scaling / Ensemble 等
  • 訓練結果:AUC・EER・Feature Importance をリアルタイム表示
  • 設定をJSONファイルに自動保存(再現性確保)
fvd_gui.py

FVD Detection Tool

訓練済みモデル(pkl)をロードし、 音声ファイルの真偽判定から詳細解析・ 可視化まで一括して実行できます。

  • Compare Both:2ファイルの個別比較判定
  • Batch ROC:複数ファイルのROC-AUC・EER算出
  • Feature Importance:判定根拠の特徴量ランキング表示
  • Statistical Analysis:統計的差異検定・スペクトル比較
  • Threshold Analysis:閾値ベースの詳細分類
  • Visualize:Waveform・Mel-Spectrogram可視化と再生
Technical Specification

技術仕様

解析エンジンの主要パラメータです。

項目 仕様・説明
サンプリングレート 44,100 Hz(全モジュール統一)
特徴量次元数 59次元(設定により増減可)
主要特徴量 MFCC(13次元×mean/std/delta)・Spectral Flatness・Spectral Centroid・ RMS Energy・Jitter・Shimmer・ZCR・Pitch(f0)等
分類モデル Random Forest / Gradient Boosting / SVM(GUI上で選択)
スコア方式 predict_proba / Platt Scaling / Cosine+Euclidean距離 / Ensemble(選択式)
評価指標 ROC-AUC / EER / Optimal Threshold(Youden's J)/ Accuracy / Confusion Matrix
対応音声フォーマット WAV(推奨・44,100 Hz / モノラル / 16bit)/ MP3 / FLAC 等
検証済み性能(日本語) 7話者 / ROC-AUC = 1.000、EER = 0.3%(訓練話者同一条件)
検証済み性能(英語) ASVspoof 2019 LA 評価セット(71,237件)
RawNet2 Official: EER = 4.487%、min t-DCF = 0.12352
世界標準ベースライン(LFCC+GMM EER≈8%)を大幅に上回る
深層学習モデル RawNet2 Official(Tak et al., ICASSP 2021)
SincConv + Channel Attention + ResBlocks×6 + GRU×3 + SWA
可視化: Mel Spectrogram × Occlusion Sensitivity(4パネル)
動作環境 Python 3.10 / Windows 10以降 / Anaconda環境
GPU: NVIDIA RTX 5070 推奨(CUDA 12.8)
Input Data Specification

訓練データの入力仕様

FVD Training Tool に必要なデータと推奨条件です。

1

Real音声
フォルダ

本物の声の
WAVファイル群

2

Synthetic音声
フォルダ

AI合成音声の
WAVファイル群

3

出力先
フォルダ

pkl・CSV・
レポートの保存先

4

モデル設定
選択

GUI上で特徴量・
モデルを指定

推奨録音・ファイル条件

  • フォーマット:WAV / 44,100 Hz / モノラル / 16bit (audio_preprocessor.py で自動変換可)
  • 音声の長さ:1.5秒以上。推奨は3〜8秒(1〜2文程度の自然な発話)
  • 発話内容:日常会話・読み上げ文など自然な発話。 「ああああ」等、極端に偏った音韻構成は避ける
  • 話者構成:男女複数話者で訓練することで汎用モデルの精度が向上する
  • データ数:Real / Synthetic 各クラス最低50件、推奨150件以上/クラス
  • Synthetic音声の作成:対象話者のReal音声を speaker_wav に指定し BR-TTS NNW(XTTS v2)で合成する
i
録音テキストの保存について

FVD訓練の目的では、録音内容のテキスト保存は不要です。 本システムは「何を言ったか」ではなく「声がどう鳴っているか」 — Jitter・Shimmer・Spectral Flatness 等の音響特徴 — を解析するためです。
将来的な話者認証・ASR(音声認識)との統合を考慮する場合は、 音声ファイルと対応テキストの管理表(CSV)を作成しておくことを推奨します。

Legal & Policy

ご利用にあたっての重要事項

本サービスをご利用いただく前に、以下の内容をご確認ください。

!
判定精度・免責事項
  • 判定結果は音響統計モデルに基づく参考情報です
  • 法的証拠能力を保証するものではありません
  • 未知のTTSエンジンや後処理音声では精度が変動する場合があります
  • 最終判断はご依頼者様の責任において行ってください
!
音声データの取り扱い
  • 送付いただいたデータは解析目的のみに使用します
  • 解析完了後、お客様の音声データは安全に削除します
  • 音声データに含まれる個人情報は第三者に提供しません
  • 機密データについてはNDA締結に対応します
!
利用目的の制限
  • 音声真偽確認を目的とした正当な用途にのみご利用ください
  • 第三者の権利を侵害する目的での利用は固くお断りします
  • 判定結果を根拠のない誹謗中傷・風評被害に用いることを禁止します
i
結果の表示・引用について
  • メディア・報告書等への掲載時は「BR SYSTEMS VoiceGuard Analytics による音響解析結果」と出典を明記してください
  • 「100%検出可能」等、精度の誇大表現はお控えください
  • 競合他社との根拠のない比較表現はご遠慮ください
Open Source Licenses

使用ライブラリとライセンス

本システムは以下のオープンソースライブラリを使用しています。 いずれも商用利用可能なライセンスです。

librosa ISC License 音響特徴量抽出
scikit-learn BSD License 機械学習モデル
numpy BSD License 数値計算
sounddevice MIT License 音声再生
matplotlib PSF License グラフ描画
PyWavelets MIT License Wavelet解析
tkinter PSF License GUIフレームワーク
soundfile BSD License 音声ファイルI/O
PyTorch BSD License 深層学習フレームワーク
torchaudio BSD License 音声深層学習
torchcontrib BSD License SWA最適化
RawNet2Spoof MIT License 公式RawNet2実装(NAVER Corp.)
商用利用について

上記ライブラリはいずれも商用サービスへの組み込みが許可されたライセンスです。 ISC・MIT・BSD・PSFライセンスは著作権表示を維持した上で自由に利用できます。

Quality Commitment

品質向上への取り組み

継続的な性能検証

当社は音声偽造検出の世界標準ベンチマーク ASVspoof 2019 LA での 継続的な性能検証を実施しています。 公式 RawNet2 実装(Tak et al., ICASSP 2021)を用いた最新の検証では、 評価セット(71,237件)において EER = 4.487%、min t-DCF = 0.12352 を達成しました。 これは世界標準ベースライン(LFCC+GMM EER≈8%)を大幅に上回る結果であり、 現在国際学術誌(IEEE Access)への論文投稿を準備中です。

i
AI音声合成技術との継続的な対応

AI音声合成技術は急速に進化しており、検出技術もそれに対応し続ける必要があります。 当社は新たなTTSエンジンや音声変換技術の動向を常に把握し、 訓練データの拡充・モデルの更新を継続することで、 実用的な検出精度の維持・向上を図っています。 次のステップとして AASIST(Graph Attention Network)の導入を検討中です。

解析依頼・お問い合わせ

ご質問・お見積もりはお気軽にどうぞ。通常1営業日以内にご返信します。

info@brsystems.jp BR SYSTEMS 公式サイト