Skip to main content

Qu'est-ce que la déformation du temps dynamique?

La déformation du temps dynamique (DTW) implique une méthode de calcul, appelée algorithme, pour comparer les sons, la vidéo et les graphiques qui peuvent être similaires, mais dont des échantillons peuvent avoir des différences subtiles.Les calculs forment généralement une représentation linéaire de l'échantillon et mesurent les différences en fonction du temps.Différents éléments d'un échantillon peuvent être mappés sur une grille pour identifier les similitudes, tandis que les commandes de fonctions utilisent souvent des symboles pour identifier chaque variable.La reconnaissance de la parole, par exemple, utilise parfois la déformation du temps dynamique pour faire correspondre les mots même si elles sont prononcées à différentes vitesses ou certaines parties sont prononcées différemment.

De nombreux programmes de reconnaissance de la parole utilisent une déformation du temps dynamique parce que les gens parlent souvent à des taux différents.Certains sons de voyelle peuvent être annoncés différemment en fonction des émotions ou d'autres facteurs.Certains programmes peuvent reconnaître les mots prononcés, peu importe qui parle.Pour cette raison, il n'est généralement pas efficace d'additionner les distances des intervalles de temps pour comparer les sons.Avec DTW, divers points spécifiques au temps pour chaque signal sont analysés;Ces distances sont calculées sur une grille qui s'étend de la gauche inférieure à la droite supérieure.

Les similitudes dans les parties correspondantes de deux échantillons peuvent être mesurées à l'aide de la distance de Levenshtein.Des lettres sont utilisées pour représenter les changements entre une source et une autre.La solution à l'algorithme est généralement un nombre plus grand plus les deux échantillons sont différents.Ce concept est souvent utilisé pour la reconnaissance vocale ainsi que pour la vérification des orthographiques et l'analyse du matériel génétique.

Dans certaines mesures, les changements de fréquence peuvent compenser la capacité de la déformation du temps dynamique.Les signaux peuvent être calculés de telle manière que leur forme est utilisée quelle que soit la fréquence.Les signaux modulés peuvent également poser un problème, mais une grille qui calcule les distances entre les segments de ligne au lieu de points peut compenser.

L'alignement de séquence est généralement mathématique et certaines compétences en programmation informatique sont nécessaires pour la comprendre pleinement.Les algorithmes de déformation du temps dynamique dépendent de certaines conditions de base pour calculer de manière réaliste les différences entre les échantillons audio ou visuels.Compte tenu d'un échantillon comme un chemin le long d'une grille, l'algorithme suit souvent des règles, telles que le chemin ne peut pas revenir en arrière et qu'il est mesuré une étape à la fois.En plus du format inférieur vers le bas à droite, les mesures sont limitées aux emplacements proches d'une ligne diagonale.Les valeurs trop raides ou peu profondes sont souvent ignorées car elles peuvent provoquer des erreurs dans la mesure finale.