Wat is gegevens redundantie?
Gegevensredundantie is een situatie die plaatsvindt in databasesystemen en omvat de onbedoelde creatie van gedupliceerde gegevens die niet nodig zijn voor de functie van de database. Hoewel redundantie in sommige situaties vaak een gewenste eigenschap is, is dit niet waar als het gaat om de functie van een database. De aanwezigheid van gedupliceerde gegevens kan vaak een negatief effect hebben op de functie van het systeem, wat resulteert in terugkerende informatie in reactie op systeemvragen die minder dan nuttig zijn. Een van de belangrijkste functies van gegevensbeheer is de identificatie van gedupliceerde gegevens en het verwijderen van die duplicaties.
Het potentieel voor gegevensredundantie is te vinden in zowat elk type databaseprogramma. Programma's die als plat worden beschouwd, zoals spreadsheets, en vertrouwen op handmatige invoer van gegevens zijn bijzonder gevoelig voor de duplicatie van informatie die kan leiden tot complicaties als het gaat om het ophalen van de gewenste informatie. Relationele stijldatabases, zoals verkoopContactdatabases bevatten vaak processen die helpen om de kansen op onbedoelde duplicatie te minimaliseren, zoals het maken van twee verschillende contactbestanden op hetzelfde contact dat bij hetzelfde bedrijf is gekoppeld. Zelfs met het gebruik van systeemcontroles om de incidentie van gegevensredundantie te verminderen, is er nog steeds het potentieel dat problemen kunnen optreden, waardoor het noodzakelijk is om periodiek de taak van gegevensopruiming in een database uit te voeren.
In het beste geval betekent gegevensredundantie dat de database bezaaid is met informatie die niet essentieel is, maar geen echte bedreiging vormt voor het vermogen om de gegevens te vinden wanneer en indien nodig. In het slechtste geval vertraagt de aanwezigheid van de gedupliceerde gegevens de essentiële functies van de database en kan het proces van het gebruik van de database compliceren om bepaalde taken te beheren. Bijvoorbeeld het gebruik van een klantdatabase die verstopt is met redundante informatie om postlabels te genereren woULD resulteert in het creëren van een aantal gedupliceerde niveaus, waardoor het noodzakelijk is om de duplicaten te sorteren en te verwijderen voordat de labels kunnen worden gebruikt, of de tijd nemen om de database op te ruimen voordat ze proberen de labels te genereren.
Gelukkig is het monitoren voor en het corrigeren van gegevensontvangst iets dat veel gegevensbeheersystemen met relatief gemak kunnen bereiken. Sommige systemen zullen de invoer van gedupliceerde gegevens markeren, waardoor het gemakkelijk is om de waargenomen duplicatie te herzien en te beslissen of deze te verwijderen of toestaan. Er zijn zelfs softwareprogramma's die kunnen worden gebruikt om een bestaande database op duplicaties te scannen en die redundante vermeldingen automatisch met relatief gemak te verwijderen.