Technical Specification & Legal Notice

BR-FVDツール
技術仕様・ご利用規約

当社が独自開発したフェイク音声検出(FVD)システムの構成・入力仕様と、 サービスご利用にあたっての重要事項をご説明します。

System Overview

ツール構成

FVDシステムは音声から59次元の音響特徴量を抽出し、 機械学習モデルで Real(本物)/ Synthetic(AI合成)を判定します。 訓練用と解析用の2つのGUIツールで構成されます。

fvd_train_gui.py

FVD Training Tool

Real・Syntheticの音声フォルダを指定し、 特徴量設定とモデル種別をGUI上で選択して 判定モデル(pkl)を訓練・保存します。

  • 特徴量グループの個別ON/OFF選択
  • モデル種別:Random Forest / SVM / Gradient Boosting
  • スコア方式:predict_proba / Platt Scaling / Ensemble 等
  • 訓練結果:AUC・EER・Feature Importance をリアルタイム表示
  • 設定をJSONファイルに自動保存(再現性確保)
fvd_gui.py

FVD Detection Tool

訓練済みモデル(pkl)をロードし、 音声ファイルの真偽判定から詳細解析・ 可視化まで一括して実行できます。

  • Compare Both:2ファイルの個別比較判定
  • Batch ROC:複数ファイルのROC-AUC・EER算出
  • Feature Importance:判定根拠の特徴量ランキング表示
  • Statistical Analysis:統計的差異検定・スペクトル比較
  • Threshold Analysis:閾値ベースの詳細分類
  • Visualize:Waveform・Mel-Spectrogram可視化と再生
Technical Specification

技術仕様

解析エンジンの主要パラメータです。

項目 仕様・説明
サンプリングレート 44,100 Hz(全モジュール統一)
特徴量次元数 59次元(設定により増減可)
主要特徴量 MFCC(13次元×mean/std/delta)・Spectral Flatness・Spectral Centroid・ RMS Energy・Jitter・Shimmer・ZCR・Pitch(f0)等
分類モデル Random Forest / Gradient Boosting / SVM(GUI上で選択)
スコア方式 predict_proba / Platt Scaling / Cosine+Euclidean距離 / Ensemble(選択式)
評価指標 ROC-AUC / EER / Optimal Threshold(Youden's J)/ Accuracy / Confusion Matrix
対応音声フォーマット WAV(推奨・44,100 Hz / モノラル / 16bit)/ MP3 / FLAC 等
検証済み性能 5話者545件でROC-AUC = 1.000、EER = 0.3%(訓練話者同一条件)
動作環境 Python 3.10 / Windows 10以降 / Anaconda環境
Input Data Specification

訓練データの入力仕様

FVD Training Tool に必要なデータと推奨条件です。

1

Real音声
フォルダ

本物の声の
WAVファイル群

2

Synthetic音声
フォルダ

AI合成音声の
WAVファイル群

3

出力先
フォルダ

pkl・CSV・
レポートの保存先

4

モデル設定
選択

GUI上で特徴量・
モデルを指定

推奨録音・ファイル条件

  • フォーマット:WAV / 44,100 Hz / モノラル / 16bit (audio_preprocessor.py で自動変換可)
  • 音声の長さ:1.5秒以上。推奨は3〜8秒(1〜2文程度の自然な発話)
  • 発話内容:日常会話・読み上げ文など自然な発話。 「ああああ」等、極端に偏った音韻構成は避ける
  • 話者構成:男女複数話者で訓練することで汎用モデルの精度が向上する
  • データ数:Real / Synthetic 各クラス最低50件、推奨150件以上/クラス
  • Synthetic音声の作成:対象話者のReal音声を speaker_wav に指定し BR-TTS NNW(XTTS v2)で合成する
i
録音テキストの保存について

FVD訓練の目的では、録音内容のテキスト保存は不要です。 本システムは「何を言ったか」ではなく「声がどう鳴っているか」 — Jitter・Shimmer・Spectral Flatness 等の音響特徴 — を解析するためです。
将来的な話者認証・ASR(音声認識)との統合を考慮する場合は、 音声ファイルと対応テキストの管理表(CSV)を作成しておくことを推奨します。

Legal & Policy

ご利用にあたっての重要事項

本サービスをご利用いただく前に、以下の内容をご確認ください。

!
判定精度・免責事項
  • 判定結果は音響統計モデルに基づく参考情報です
  • 法的証拠能力を保証するものではありません
  • 未知のTTSエンジンや後処理音声では精度が変動する場合があります
  • 最終判断はご依頼者様の責任において行ってください
!
音声データの取り扱い
  • 送付いただいたデータは解析目的のみに使用します
  • 解析完了後、お客様の音声データは安全に削除します
  • 音声データに含まれる個人情報は第三者に提供しません
  • 機密データについてはNDA締結に対応します
!
利用目的の制限
  • 音声真偽確認を目的とした正当な用途にのみご利用ください
  • 第三者の権利を侵害する目的での利用は固くお断りします
  • 判定結果を根拠のない誹謗中傷・風評被害に用いることを禁止します
i
結果の表示・引用について
  • メディア・報告書等への掲載時は「BR SYSTEMS VoiceGuard Analytics による音響解析結果」と出典を明記してください
  • 「100%検出可能」等、精度の誇大表現はお控えください
  • 競合他社との根拠のない比較表現はご遠慮ください
Open Source Licenses

使用ライブラリとライセンス

本システムは以下のオープンソースライブラリを使用しています。 いずれも商用利用可能なライセンスです。

librosa ISC License 音響特徴量抽出
scikit-learn BSD License 機械学習モデル
numpy BSD License 数値計算
sounddevice MIT License 音声再生
matplotlib PSF License グラフ描画
PyWavelets MIT License Wavelet解析
tkinter PSF License GUIフレームワーク
soundfile BSD License 音声ファイルI/O
商用利用について

上記ライブラリはいずれも商用サービスへの組み込みが許可されたライセンスです。 ISC・MIT・BSD・PSFライセンスは著作権表示を維持した上で自由に利用できます。

Quality Commitment

品質向上への取り組み

継続的な性能検証

当社は音声偽造検出の世界標準ベンチマークである ASVspoof での 継続的な性能検証を実施し、サービス品質の向上に取り組んでいます。 ASVspoof は国際的な研究機関が設計した評価データセットであり、 EER(等誤り率)・min-DCF 等の指標による客観的な精度測定が可能です。 検証結果に基づき、モデルの改善・特徴量の拡充を順次反映してまいります。

i
AI音声合成技術との継続的な対応

AI音声合成技術は急速に進化しており、検出技術もそれに対応し続ける必要があります。 当社は新たなTTSエンジンや音声変換技術の動向を常に把握し、 訓練データの拡充・モデルの更新を継続することで、 実用的な検出精度の維持・向上を図っています。

解析依頼・お問い合わせ

ご質問・お見積もりはお気軽にどうぞ。通常1営業日以内にご返信します。

info@brsystems.jp BR SYSTEMS 公式サイト