偽声検出-Fake Voice Detection Service
音声の真偽判定を、
科学の力で。
BR SYSTEMS の VoiceGuard Analytics は、機械学習と深層学習を組み合わせた 多段階アプローチでAI合成音声を高精度に検出します。 音声ファイルをメールでご送付いただくだけで、詳細な解析レポートをご提供します。
AI音声合成が引き起こすリスク
XTTS v2・VALL-E などの高品質TTSにより、人間の声を精巧に模倣した 合成音声が誰でも作成できる時代になりました。
声紋なりすまし
特定人物の声を模倣した音声で本人確認や認証システムを突破する攻撃が現実化しています。
音声フェイクニュース
政治家・著名人の偽音声が拡散し、社会的信用・風評への影響が深刻化しています。
電話詐欺・ビジネス詐欺
家族・上司の声を模倣した詐欺電話が増加。肉声との区別が困難になっています。
コンテンツ真正性の問題
インタビュー・証言・録音記録の真偽確認が困難になり、法的・報道的信頼性を損なっています。
2つの解析サービス
用途と精度要件に応じて、汎用モデルと個人特化モデルをお選びいただけます。
汎用フェイク音声検出
話者情報不要で即日対応。複数話者・複数TTSエンジン対応の汎用モデルで、送付された音声が合成かどうかを解析します。
- 話者登録不要・即日解析対応
- 197次元音響特徴量 + GradientBoosting
- RawNet2深層学習モデルによる二重判定
- ROC-AUC・EER・信頼スコアを含む詳細レポート
- バッチ解析(複数ファイル一括)対応
個人特化フェイク音声検出
対象者本人の声サンプルを事前登録し、その人物に特化した高精度モデルで判定。なりすまし検出に特に有効です。
- 本人声サンプル(Real)を事前登録
- 個人特化モデルで極高精度を実現
- ECAPA-TDNN話者埋め込みによる照合
- Threshold Analysis詳細レポート付き
- 継続的なモデル更新オプション
4ステップで完了
音声ファイルをメールでご送付いただくだけで、詳細な解析レポートをお届けします。
お問い合わせ
解析対象・件数・用途をお知らせください。お見積りを即日ご提案します。
音声ファイル送付
解析対象の音声ファイル(WAV推奨)をメールにてお送りください。
多段階解析
197次元特徴量解析とRawNet2深層学習による精密解析を実施します。
レポート納品
ROC曲線・AUC・特徴量重要度・判定根拠を含む詳細レポートをお届けします。
解析技術の概要
機械学習と深層学習を組み合わせた多段階アプローチで高精度な判定を実現します。
特徴量ベース解析
197次元の音響特徴量を抽出し、GradientBoostingモデルで判定します。 MFCC・LFCC・CQCC・Group Delay・Mel統計量を組み合わせた 多次元特徴量エンジニアリングにより高い説明可能性を実現します。
深層学習モデル(RawNet2)
生波形を直接入力とするEnd-to-Endニューラルネットワーク。 SincConv + ResBlocks + GRUアーキテクチャにより、 特徴量設計では捉えられない微細な音声特性を学習します。 RawBoost Data Augmentationで未知TTSへの汎化性能を向上。
世界標準ベンチマークで実証された技術
数値で証明された検出精度
本システムは、音声偽造検出の世界標準評価基準である
ASVspoof 2019 LA(71,237件)での
厳格な性能検証を実施・クリアしています。
公式 RawNet2 実装による検証では
EER = 4.487%、min t-DCF = 0.12352 を達成。
世界標準ベースライン(LFCC+GMM EER≈8%)を大幅に上回り、
即戦力となる検出精度を実現しています。
日本語音声においては ROC-AUC = 1.000、EER = 0.3% を達成しており、
商用サービスとして十分な精度水準です。
本技術はさらなる信頼性確保のため、
国際学術誌への論文投稿を通じた第三者機関による技術検証も進めています。
ROC-AUC(7話者検証)
EER(等誤り率)
世界標準超えのEER
対応する偽音声の種類
音声 Deepfake は主に5種類に分類されます。 現在の BR-FVD が対応する範囲と今後のロードマップです。
TTS(テキスト音声合成)
対応済みXTTS v2・VALL-E・StyleBERT等のニューラルTTSで生成された合成音声。ASVspoof 2019 LA(A01〜A19)で検証済み。EER=4.487%を達成。
VC(音声変換)
対応済み話者Aの声を話者Bの声に変換するVoice Conversion。ASVspoofのVC攻撃(A01・A02・A17〜A19)を含むデータで訓練済み。VAEベースVCは最も検出困難な攻撃として知られています。
Emotion Fake(感情偽造)
部分対応同一話者の感情・語調を改ざんした音声。Jitter・Shimmer等の特徴量で検出可能性があります。専用訓練データによるモデル強化を検討中です。
Scene Fake(場面偽造)
部分対応背景音・残響・環境音を改ざん・合成した音声。Spectral Flatness等の特徴量で検出可能性があります。専用データセットでの検証が今後の課題です。
Partially Fake(部分偽造)
今後対応予定発話の一部だけを差し替えた音声。全体スコアでの検出が困難なため、セグメント単位の判定が必要です。Occlusion Sensitivity の活用を含め実装を検討中です。
電話回線経由音声
今後対応予定PSTN・VoIP経由で帯域制限・コーデック圧縮を受けた音声。専用のData Augmentationと前処理の追加により対応を検討中です。
解析レポートの内容
単なるYes/Noではなく、判定根拠を科学的に可視化した詳細レポートを提供します。
ROC Curve & AUC
受信者操作特性曲線。モデルの識別性能をAUCとEERで定量化します。
Score Distribution
Real/Syntheticスコア分布の可視化。2クラスの分離度を直感的に把握できます。
Feature Importance
197次元特徴量の重要度ランキング。どの音響特徴が判定根拠になったかを示します。
Threshold Analysis
閾値ベースの詳細分析。Jitter・Shimmer・Spectral等の個別指標評価を含みます。
RawNet2 Deep Score + Occlusion
深層学習モデルによる合成確率スコアと、Mel Spectrogram × Occlusion Sensitivity可視化。どの時間帯・周波数帯が判定の根拠かを4パネルで図示します。
判定サマリー CSV
各ファイルの合成確率スコア・予測ラベル・信頼度を一覧化したCSVレポートです。
シンプルな料金体系
解析件数・用途に応じた柔軟なプランをご用意しています。まずはお気軽にご相談ください。
- Universal FVD 解析
- ROC・Score Distribution レポート
- 判定サマリー CSV
- 納期:3営業日以内
- Universal FVD バッチ解析
- RawNet2 深層学習判定付き
- 全納品物セット(6種)
- Feature Importance 分析
- 納期:5営業日以内
- 個人特化モデル構築
- Personalized FVD 解析
- 全納品物セット(6種)
- 継続モデル更新オプション
- 納期:別途ご相談
