LA MACHINE.

Stack IA haut de gamme. Construit pour la vitesse, la précision et une confidentialité sans compromis.

DeepInfra GPU · IA vocale de pointe · TLS 1.3 + AES-256 · audio supprimé immédiatement

02. Infrastructure

POWERED
BY
DEEPINFRA

Clusters GPU mondiaux

DeepInfra déploie une flotte de GPUs dédiés à l'échelle mondiale. Chaque requête est routée vers le nœud le plus proche — latence au plancher, peu importe où tu es.

SLA enterprise, sans blabla

L'infra DeepInfra est construite selon les standards enterprise — la même que celle utilisée par des boîtes qui traitent des centaines de millions de requêtes IA par jour.

Fini les cold starts

On tourne exclusivement sur des endpoints dédiés toujours chauds. Zéro délai de démarrage, zéro file d'attente. Ta requête arrive, le modèle est déjà là.

Scale sans broncher

Que tu sois le premier ou le dix millième utilisateur de la journée, le système scale horizontalement sans dégradation.

03. Modèle

Modèles de pointe.
Le gold standard.

Architecture

Transformer

Architecture profonde encoder-decoder basée sur Transformer, entraînée de bout en bout sur des centaines de milliers d'heures d'audio multilingue réel.

Paramètres

1.5B+

1,5 milliard de paramètres appris, entraînés sur 680 000 heures d'audio multilingue — l'un des plus grands datasets d'entraînement vocal jamais assemblés.

Langues

100+

Comprend nativement plus de 100 langues parlées. Aucune configuration — la langue est détectée automatiquement, même quand tu changes en pleine phrase.

WER (anglais)

2.7%

Taux d'erreur de mots de 2,7 % sur les benchmarks standards — approchant la précision humaine sur tous les accents, dialectes et environnements bruyants.

04. Pipeline

De la voix au texte
en moins de 2 secondes.

Six étapes. Toutes optimisées à fond. L'audio entre, le texte sort, rien ne reste.

MIC

Capturé

ENCODE

WebM/Opus

BUFFER

API Path

ANALYSE

DeepInfra

RETOUR

< 1,8s

SUPPR.

Définitif

Capture navigateur

L'audio est capté nativement dans ton navigateur via la WebAudio API. Aucun plugin, aucune extension, rien à télécharger. Fonctionne sur tous les appareils modernes.

Encodage efficace

L'audio est encodé en WebM/Opus — un codec conçu pour la voix. Taille de fichier et temps d'upload minimisés, chaque phonème préservé.

Staging temporaire

Les fichiers transitent brièvement par Yapr API avant l'inférence. Ça nous permet de traiter des enregistrements de n'importe quelle durée sans contrainte de timeout serverless.

Inférence IA

Ton audio est envoyé à l'endpoint d'inférence dédié de DeepInfra. Des modèles vocaux de pointe tournent sur du hardware GPU dédié — pas de file d'attente partagée, pas de cold start, pas de délai.

Retour instantané

Le texte transcrit revient directement dans ton navigateur via notre API. Le temps aller-retour médian est sous 1,8 seconde pour les enregistrements de moins de 60 secondes.

Suppression définitive

Dès que la transcription se termine, le fichier audio est supprimé de Yapr API. La suppression est automatique, irrévocable, et se fait dans les 60 secondes suivant l'upload.

0.2%

précision des mots

0K hrs

données d'entraînement

langues

0-bit

chiffrement AES

0.9%

SLA de disponibilité

0bytes

audio conservé

05. Précision

99,2 %
Précision
sur les mots.

Évalué indépendamment. Testé sur des accents, environnements, débits et langues variés. Pas du marketing — une mesure vérifiée.

Locuteurs natifs anglais

99.4%

Locuteurs non natifs anglais

98.8%

Vocabulaire technique

98.1%

Environnements bruyants

97.2%

Alternance de langues (2 langues)

96.9%

06. Architecture de confidentialité

Zéro rétention.
Pas une politique.
Une architecture.

Aucune couche de stockage audio

Le système est conçu sans couche de stockage audio. L'audio traverse le pipeline uniquement pour générer le texte. Pas de bucket long terme, pas de tier d'archive, pas de backup des fichiers audio.

Suppression immédiate

Une architecture sans couche de stockage audio garantit que tous les fichiers audio sont supprimés immédiatement après la transcription : pas d'archive, pas de base d'enregistrements, pas de couche de rétention.

TLS 1.3 en transit

Toutes les données en transit utilisent TLS 1.3 — le standard de référence actuel en chiffrement de transport. Ça couvre ton navigateur, notre API et notre infrastructure IA.

AES-256 au repos

Le texte des transcriptions et les données de compte sont stockés dans des partitions de base de données chiffrées en AES-256-GCM avec rotation des clés. Le chiffrement est imposé au niveau infrastructure, pas applicatif.

Authentification sécurisée

L'authentification est disponible via OAuth 2.0 (Google, GitHub), email avec hachage de mot de passe chiffré, ou passkeys (WebAuthn). Les mots de passe ne sont jamais stockés en clair. Tes données biométriques ne quittent jamais ton appareil.

En-têtes de sécurité renforcés

Chaque réponse applique HSTS, Content-Security-Policy, X-Frame-Options et SameSite=Strict cookies — protection contre XSS, clickjacking et détournement de session par défaut.

Séparation des métadonnées

Les seules données stockées de façon permanente sont les métadonnées d'utilisation : horodatages et texte de transcription (uniquement si tu actives l'historique — désactivé par défaut). Le contenu audio n'est jamais persisté, quelle que soit la situation.

Conformité RGPD + CCPA

Conformité réglementaire totale avec le RGPD et le CCPA. Tu peux exporter ou supprimer toutes tes données à tout moment via les Réglages. Les demandes de suppression sont traitées sous 30 jours.

PRÊT ?
C'EST PARTI.

Sans carte. Gratuit dès le départ.

Commencer gratuitement Comment ça marche

LA MACHINE.

POWEREDBYDEEPINFRA

Modèles de pointe.Le gold standard.

De la voix au texteen moins de 2 secondes.

99,2 %Précisionsur les mots.

Zéro rétention.Pas une politique.Une architecture.

PRÊT ?C'EST PARTI.

LA MACHINE.

POWEREDBYDEEPINFRA

Modèles de pointe.Le gold standard.

De la voix au texteen moins de 2 secondes.

99,2 %Précisionsur les mots.

Zéro rétention.Pas une politique.Une architecture.

PRÊT ?C'EST PARTI.

POWERED
BY
DEEPINFRA

Modèles de pointe.
Le gold standard.

De la voix au texte
en moins de 2 secondes.

99,2 %
Précision
sur les mots.

Zéro rétention.
Pas une politique.
Une architecture.

PRÊT ?
C'EST PARTI.

POWERED
BY
DEEPINFRA

Modèles de pointe.
Le gold standard.

De la voix au texte
en moins de 2 secondes.

99,2 %
Précision
sur les mots.

Zéro rétention.
Pas une politique.
Une architecture.

PRÊT ?
C'EST PARTI.