VoiceGuard Analytics — Fake Voice Detection Service

音声の真偽判定を、
科学の力で。

Powered by Deep Learning & Acoustic Analysis

BR SYSTEMS の VoiceGuard Analytics は、機械学習と深層学習を組み合わせた 多段階アプローチでAI合成音声を高精度に検出します。 音声ファイルをメールでご送付いただくだけで、詳細な解析レポートをご提供します。

1.000
AUC(日本語)
0.3%
EER(日本語)
4.5%
EER(英語・RawNet2)
197
特徴量次元数
7名+
検証話者数
Background & Risk

AI音声合成が引き起こすリスク

XTTS v2・VALL-E などの高品質TTSにより、人間の声を精巧に模倣した 合成音声が誰でも作成できる時代になりました。

01

声紋なりすまし

特定人物の声を模倣した音声で本人確認や認証システムを突破する攻撃が現実化しています。

02

音声フェイクニュース

政治家・著名人の偽音声が拡散し、社会的信用・風評への影響が深刻化しています。

03

電話詐欺・ビジネス詐欺

家族・上司の声を模倣した詐欺電話が増加。肉声との区別が困難になっています。

04

コンテンツ真正性の問題

インタビュー・証言・録音記録の真偽確認が困難になり、法的・報道的信頼性を損なっています。

Services

2つの解析サービス

用途と精度要件に応じて、汎用モデルと個人特化モデルをお選びいただけます。

Universal FVD

汎用フェイク音声検出

Universal Fake Voice Detection

話者情報不要で即日対応。複数話者・複数TTSエンジン対応の汎用モデルで、送付された音声が合成かどうかを解析します。

  • 話者登録不要・即日解析対応
  • 197次元音響特徴量 + GradientBoosting
  • RawNet2深層学習モデルによる二重判定
  • ROC-AUC・EER・信頼スコアを含む詳細レポート
  • バッチ解析(複数ファイル一括)対応
Personalized FVD

個人特化フェイク音声検出

Personalized Fake Voice Detection

対象者本人の声サンプルを事前登録し、その人物に特化した高精度モデルで判定。なりすまし検出に特に有効です。

  • 本人声サンプル(Real)を事前登録
  • 個人特化モデルで極高精度を実現
  • ECAPA-TDNN話者埋め込みによる照合
  • Threshold Analysis詳細レポート付き
  • 継続的なモデル更新オプション
Process

4ステップで完了

音声ファイルをメールでご送付いただくだけで、詳細な解析レポートをお届けします。

1

お問い合わせ

解析対象・件数・用途をお知らせください。お見積りを即日ご提案します。

2

音声ファイル送付

解析対象の音声ファイル(WAV推奨)をメールにてお送りください。

3

多段階解析

197次元特徴量解析とRawNet2深層学習による精密解析を実施します。

4

レポート納品

ROC曲線・AUC・特徴量重要度・判定根拠を含む詳細レポートをお届けします。

Technology

解析技術の概要

機械学習と深層学習を組み合わせた多段階アプローチで高精度な判定を実現します。

特徴量ベース解析

197次元の音響特徴量を抽出し、GradientBoostingモデルで判定します。 MFCC・LFCC・CQCC・Group Delay・Mel統計量を組み合わせた 多次元特徴量エンジニアリングにより高い説明可能性を実現します。

MFCC 39-dim LFCC 60-dim CQCC 60-dim Group Delay Mel Stats Jitter / Shimmer GradientBoosting

深層学習モデル(RawNet2)

生波形を直接入力とするEnd-to-Endニューラルネットワーク。 SincConv + ResBlocks + GRUアーキテクチャにより、 特徴量設計では捉えられない微細な音声特性を学習します。 RawBoost Data Augmentationで未知TTSへの汎化性能を向上。

RawNet2 Official SincConv + Attention ResBlocks×6 GRU × 3層 SWA Occlusion Sensitivity CUDA / RTX 5070
// ASVspoof 2019 LA Benchmark — EER Comparison
手法
EER
AUC
言語
LFCC + GMM ASVspoof 2019 Baseline
8.0%
EN
GradientBoosting + 197-dim BR-FVD Feature Engineering
13.4%
0.944
EN
RawNet2 Official + SWA BR-FVD Deep Learning(英語 / ASVspoof 2019 LA)
4.5%
EN
GradientBoosting + 197-dim BR-FVD(日本語・7話者)
0.3%
1.000
JA
AASIST World State-of-the-Art(参考)
0.8%
EN
Verified Performance

世界標準ベンチマークで実証された技術

数値で証明された検出精度

本システムは、音声偽造検出の世界標準評価基準である ASVspoof 2019 LA(71,237件)での 厳格な性能検証を実施・クリアしています。 公式 RawNet2 実装による検証では EER = 4.487%、min t-DCF = 0.12352 を達成。 世界標準ベースライン(LFCC+GMM EER≈8%)を大幅に上回り、 即戦力となる検出精度を実現しています。

日本語音声においては ROC-AUC = 1.000、EER = 0.3% を達成しており、 商用サービスとして十分な精度水準です。 本技術はさらなる信頼性確保のため、 国際学術誌への論文投稿を通じた第三者機関による技術検証も進めています。

1.000
日本語音声での
ROC-AUC(7話者検証)
0.3%
日本語音声での
EER(等誤り率)
4.49%
英語(ASVspoof 2019 LA)
世界標準超えのEER
Coverage

対応する偽音声の種類

音声 Deepfake は主に5種類に分類されます。 現在の BR-FVD が対応する範囲と今後のロードマップです。

TTS(テキスト音声合成)

対応済み

XTTS v2・VALL-E・StyleBERT等のニューラルTTSで生成された合成音声。ASVspoof 2019 LA(A01〜A19)で検証済み。EER=4.487%を達成。

VC(音声変換)

対応済み

話者Aの声を話者Bの声に変換するVoice Conversion。ASVspoofのVC攻撃(A01・A02・A17〜A19)を含むデータで訓練済み。VAEベースVCは最も検出困難な攻撃として知られています。

Emotion Fake(感情偽造)

部分対応

同一話者の感情・語調を改ざんした音声。Jitter・Shimmer等の特徴量で検出可能性があります。専用訓練データによるモデル強化を検討中です。

Scene Fake(場面偽造)

部分対応

背景音・残響・環境音を改ざん・合成した音声。Spectral Flatness等の特徴量で検出可能性があります。専用データセットでの検証が今後の課題です。

Partially Fake(部分偽造)

今後対応予定

発話の一部だけを差し替えた音声。全体スコアでの検出が困難なため、セグメント単位の判定が必要です。Occlusion Sensitivity の活用を含め実装を検討中です。

電話回線経由音声

今後対応予定

PSTN・VoIP経由で帯域制限・コーデック圧縮を受けた音声。専用のData Augmentationと前処理の追加により対応を検討中です。

Deliverables

解析レポートの内容

単なるYes/Noではなく、判定根拠を科学的に可視化した詳細レポートを提供します。

ROC Curve & AUC

受信者操作特性曲線。モデルの識別性能をAUCとEERで定量化します。

Score Distribution

Real/Syntheticスコア分布の可視化。2クラスの分離度を直感的に把握できます。

Feature Importance

197次元特徴量の重要度ランキング。どの音響特徴が判定根拠になったかを示します。

Threshold Analysis

閾値ベースの詳細分析。Jitter・Shimmer・Spectral等の個別指標評価を含みます。

RawNet2 Deep Score + Occlusion

深層学習モデルによる合成確率スコアと、Mel Spectrogram × Occlusion Sensitivity可視化。どの時間帯・周波数帯が判定の根拠かを4パネルで図示します。

判定サマリー CSV

各ファイルの合成確率スコア・予測ラベル・信頼度を一覧化したCSVレポートです。

Pricing

シンプルな料金体系

解析件数・用途に応じた柔軟なプランをご用意しています。まずはお気軽にご相談ください。

Spot Analysis
要相談
単発の音声ファイル確認に。少数ファイルの真偽判定に最適です。
  • Universal FVD 解析
  • ROC・Score Distribution レポート
  • 判定サマリー CSV
  • 納期:3営業日以内
お問い合わせ
Personalized
要相談
特定人物への特化解析。声サンプル提供から個別モデル構築まで対応します。
  • 個人特化モデル構築
  • Personalized FVD 解析
  • 全納品物セット(6種)
  • 継続モデル更新オプション
  • 納期:別途ご相談
お問い合わせ
FAQ

よくある質問

どのような音声ファイルを送ればよいですか?
WAV形式(44,100 Hz・モノラル・16bit)を推奨します。MP3・m4a等も対応可能ですが変換処理が必要です。音声の長さは1.5秒以上、推奨は3〜8秒程度の自然な発話です。
Universal FVD と Personalized FVD はどちらを選べばよいですか?
話者が不特定・匿名の音声確認にはUniversal FVD、特定人物のなりすまし確認や声紋保護にはPersonalized FVDをお勧めします。
判定精度はどの程度ですか?
日本語音声の検証ではROC-AUC=1.000、EER=0.3%を達成しています。英語(ASVspoof 2019 LA・71,237件)では公式RawNet2実装でEER=4.487%、min t-DCF=0.12352を達成しており、世界標準ベースライン(EER≈8%)を大幅に上回ります。ただし未知のTTSエンジンや後処理が施された音声では精度が変動する場合があります。
送付した音声データの機密性はどのように守られますか?
解析に使用した音声データは解析完了後に安全に削除します。NDA(秘密保持契約)の締結にも対応しています。
オンラインサービスはいつ開始しますか?
現在、Webアプリサーバーを構築中です。近日中にオンラインでのファイルアップロード・即時解析サービスを開始予定です。

解析依頼・お問い合わせ

サービスへのご質問、お見積もり依頼はお気軽にどうぞ。通常1営業日以内にご返信します。

info@brsystems.jp