BR-FVD 技術仕様・利用規約
BR-FVDツール
技術仕様・ご利用規約
当社が独自開発したフェイク音声検出(FVD)システムの構成・入力仕様と、 サービスご利用にあたっての重要事項をご説明します。
ツール構成
FVDシステムは音声から59次元の音響特徴量を抽出し、 機械学習モデルで Real(本物)/ Synthetic(AI合成)を判定します。 訓練用と解析用の2つのGUIツールで構成されます。
FVD Training Tool
Real・Syntheticの音声フォルダを指定し、 特徴量設定とモデル種別をGUI上で選択して 判定モデル(pkl)を訓練・保存します。
- 特徴量グループの個別ON/OFF選択
- モデル種別:Random Forest / SVM / Gradient Boosting
- スコア方式:predict_proba / Platt Scaling / Ensemble 等
- 訓練結果:AUC・EER・Feature Importance をリアルタイム表示
- 設定をJSONファイルに自動保存(再現性確保)
FVD Detection Tool
訓練済みモデル(pkl)をロードし、 音声ファイルの真偽判定から詳細解析・ 可視化まで一括して実行できます。
- Compare Both:2ファイルの個別比較判定
- Batch ROC:複数ファイルのROC-AUC・EER算出
- Feature Importance:判定根拠の特徴量ランキング表示
- Statistical Analysis:統計的差異検定・スペクトル比較
- Threshold Analysis:閾値ベースの詳細分類
- Visualize:Waveform・Mel-Spectrogram可視化と再生
技術仕様
解析エンジンの主要パラメータです。
| 項目 | 仕様・説明 |
|---|---|
| サンプリングレート | 44,100 Hz(全モジュール統一) |
| 特徴量次元数 | 59次元(設定により増減可) |
| 主要特徴量 | MFCC(13次元×mean/std/delta)・Spectral Flatness・Spectral Centroid・ RMS Energy・Jitter・Shimmer・ZCR・Pitch(f0)等 |
| 分類モデル | Random Forest / Gradient Boosting / SVM(GUI上で選択) |
| スコア方式 | predict_proba / Platt Scaling / Cosine+Euclidean距離 / Ensemble(選択式) |
| 評価指標 | ROC-AUC / EER / Optimal Threshold(Youden's J)/ Accuracy / Confusion Matrix |
| 対応音声フォーマット | WAV(推奨・44,100 Hz / モノラル / 16bit)/ MP3 / FLAC 等 |
| 検証済み性能 | 5話者545件でROC-AUC = 1.000、EER = 0.3%(訓練話者同一条件) |
| 動作環境 | Python 3.10 / Windows 10以降 / Anaconda環境 |
訓練データの入力仕様
FVD Training Tool に必要なデータと推奨条件です。
Real音声
フォルダ
本物の声の
WAVファイル群
Synthetic音声
フォルダ
AI合成音声の
WAVファイル群
出力先
フォルダ
pkl・CSV・
レポートの保存先
モデル設定
選択
GUI上で特徴量・
モデルを指定
推奨録音・ファイル条件
- フォーマット:WAV / 44,100 Hz / モノラル / 16bit (audio_preprocessor.py で自動変換可)
- 音声の長さ:1.5秒以上。推奨は3〜8秒(1〜2文程度の自然な発話)
- 発話内容:日常会話・読み上げ文など自然な発話。 「ああああ」等、極端に偏った音韻構成は避ける
- 話者構成:男女複数話者で訓練することで汎用モデルの精度が向上する
- データ数:Real / Synthetic 各クラス最低50件、推奨150件以上/クラス
- Synthetic音声の作成:対象話者のReal音声を speaker_wav に指定し BR-TTS NNW(XTTS v2)で合成する
FVD訓練の目的では、録音内容のテキスト保存は不要です。
本システムは「何を言ったか」ではなく「声がどう鳴っているか」
— Jitter・Shimmer・Spectral Flatness 等の音響特徴 — を解析するためです。
将来的な話者認証・ASR(音声認識)との統合を考慮する場合は、
音声ファイルと対応テキストの管理表(CSV)を作成しておくことを推奨します。
ご利用にあたっての重要事項
本サービスをご利用いただく前に、以下の内容をご確認ください。
- 判定結果は音響統計モデルに基づく参考情報です
- 法的証拠能力を保証するものではありません
- 未知のTTSエンジンや後処理音声では精度が変動する場合があります
- 最終判断はご依頼者様の責任において行ってください
- 送付いただいたデータは解析目的のみに使用します
- 解析完了後、お客様の音声データは安全に削除します
- 音声データに含まれる個人情報は第三者に提供しません
- 機密データについてはNDA締結に対応します
- 音声真偽確認を目的とした正当な用途にのみご利用ください
- 第三者の権利を侵害する目的での利用は固くお断りします
- 判定結果を根拠のない誹謗中傷・風評被害に用いることを禁止します
- メディア・報告書等への掲載時は「BR SYSTEMS VoiceGuard Analytics による音響解析結果」と出典を明記してください
- 「100%検出可能」等、精度の誇大表現はお控えください
- 競合他社との根拠のない比較表現はご遠慮ください
使用ライブラリとライセンス
本システムは以下のオープンソースライブラリを使用しています。 いずれも商用利用可能なライセンスです。
上記ライブラリはいずれも商用サービスへの組み込みが許可されたライセンスです。 ISC・MIT・BSD・PSFライセンスは著作権表示を維持した上で自由に利用できます。
品質向上への取り組み
当社は音声偽造検出の世界標準ベンチマークである ASVspoof での 継続的な性能検証を実施し、サービス品質の向上に取り組んでいます。 ASVspoof は国際的な研究機関が設計した評価データセットであり、 EER(等誤り率)・min-DCF 等の指標による客観的な精度測定が可能です。 検証結果に基づき、モデルの改善・特徴量の拡充を順次反映してまいります。
AI音声合成技術は急速に進化しており、検出技術もそれに対応し続ける必要があります。 当社は新たなTTSエンジンや音声変換技術の動向を常に把握し、 訓練データの拡充・モデルの更新を継続することで、 実用的な検出精度の維持・向上を図っています。
