🎤 Système de Biométrie Vocale
Proof of Concept - Wav2Vec 2.0 Fine-tuné
📊 Statistiques du système:
- Utilisateurs enregistrés: 0
- Précision du modèle: 76%
- Score AUC: 0.82
- Architecture: Wav2Vec 2.0
0.5 0.95
Enregistrer un nouvel utilisateur
💡 Conseils:
- Audio clair et net
- 3-20 secondes recommandées
- Bruit de fond minimal
- Voix normale
Vérifier l'identité d'un utilisateur
ℹ️ Information:
- 0 utilisateur(s) enregistré(s)
- Seuil: ajustable dans le slider ci-dessus
- Modèle: Wav2Vec 2.0
Gérer les utilisateurs enregistrés
🎯 Technologie
Architecture du modèle:
- Base: Wav2Vec 2.0 (Facebook AI)
- Fine-tuné sur 247 locuteurs
- 1035 échantillons vocaux (qualité téléphonique, 8kHz)
- Dimension d'embedding: 256
Détails d'entraînement:
- Loss: Supervised Contrastive Learning
- Framework: PyTorch + Transformers
- Durée d'entraînement: ~50 epochs
- Matériel: NVIDIA RTX 3050
📊 Métriques de Performance
Résultats d'évaluation:
- Précision: 76%
- Score AUC: 0.82
- Taux de vrais positifs: 79%
- Taux de faux positifs: 27%
Ensemble de test:
- 1000 paires de vérification
- 500 paires même locuteur
- 500 paires locuteurs différents
🔧 Fonctionnement
Phase d'enregistrement:
- L'utilisateur uploade un enregistrement vocal
- Le système extrait un embedding de dimension 256
- L'embedding est stocké dans la base de données
Phase de vérification:
- Enregistrement vocal inconnu uploadé
- Le système extrait l'embedding
- Calcul de similarité cosinus avec tous les utilisateurs enregistrés
- Correspondance si similarité > seuil
Algorithme de correspondance:
- Similarité cosinus entre embeddings
- Plage: -1 (opposé) à +1 (identique)
- Même locuteur typique: 0.75-0.95
- Locuteurs différents typique: 0.30-0.70
Note: Ceci est un système proof of concept. Pour un déploiement en production, considérer:
- Dataset plus large (10-20 échantillons par locuteur)
- Meilleur modèle de base (WavLM pour conditions bruitées)
- Mesures anti-spoofing
- Détection de vivacité
- Multi-enregistrement (moyenne de plusieurs enregistrements par utilisateur)