Vad är dynamisk tidsförskjutning?

Dynamisk tidsförskjutning (DTW) involverar en beräkningsmetod, kallad en algoritm, för att jämföra ljud, video och grafik som kan vara likadana men sampel som kan ha subtila skillnader. Beräkningarna formulerar vanligtvis en linjär representation av provet och mäter skillnaderna som en funktion av tiden. Olika element i ett prov kan kartläggas på ett rutnät för att identifiera likheter, medan kommandon för funktioner ofta använder symboler för att identifiera varje variabel. Taligenkänning använder till exempel ibland dynamisk tidsförskjutning för att matcha ord även om de talas med olika hastigheter eller om vissa delar uttalas på olika sätt.

Många taligenkänningsprogram använder dynamisk tidsförskjutning eftersom människor ofta talar i olika takt. Vissa vokaljud kan annonceras på olika sätt beroende på känslor eller andra faktorer. Vissa program kan känna igen orden oavsett vem som talar. Av detta skäl är det vanligtvis inte effektivt att lägga till avstånd i tidsintervall för att jämföra ljud. Med DTW analyseras olika tidspecifika punkter för varje signal; dessa avstånd beräknas på ett rutnät som går från vänster till vänster upp till höger.

Likheter i motsvarande delar av två prover kan mätas med hjälp av avståndet Levenshtein. Bokstäver används för att representera förändringarna mellan en källa och en annan. Lösningen på algoritmen är vanligtvis ett större antal ju mer olika de två proverna är. Detta koncept används ofta för taligenkänning samt stavningskontroll och analys av genetiskt material.

I vissa mätningar kan frekvensförändringar kompensera för förmågan till dynamisk tidsförskjutning. Signaler kan beräknas på ett sådant sätt att deras form används oavsett frekvens. Modulerade signaler kan också utgöra ett problem, men ett rutnät som beräknar avstånd mellan linjesegment i stället för punkter kan kompensera.

Sekvensjustering är i allmänhet matematisk och vissa datorprogrammeringsfärdigheter behövs för att fullt ut förstå det. Dynamiska tidsförskjutningsalgoritmer beror på några grundläggande förutsättningar för att realistiskt beräkna skillnaderna mellan ljud- eller visuella sampel. Med tanke på ett prov som en väg längs ett rutnät följer algoritmen ofta regler, till exempel att vägen inte kan vända tillbaka och att den mäts ett steg i taget. Förutom formatet längst ner till vänster till höger är mätningarna begränsade till platser nära en diagonal linje. Värden som är för branta eller grunt beaktas ofta eftersom de kan orsaka fel i den slutliga mätningen.

Vad är dynamisk tidsförskjutning?

Hjälpte den här artikeln dig?