Data (datalogi)
- For alternative betydninger, se Data (flertydig). (Se også artikler, som begynder med Data)
Digitale data er, indenfor digital informationsteknologi og datalogi, en repræsentation af digital information. Computerens formål er, basalt set, at lagre og behandle digitale data. I ordet data forstås, at det er information som er fremstillet på en måde, så det rent faktisk kan behandles af en computer.
Denne repræsentation er altid binær i computeren. Altså er ethvert tegn og tal i computeren repræsenteret ved en række binære cifre. I tilfælde af et tal oversættes det i computeren nogenlunde efter det almindelige binære system. I andre tilfælde, fx ved en tekststreng, har man sat nogle forskellige standarder for, hvordan tekst kan repræsenteres.
Når en computer skal behandle data, vil den altid gøre det ud fra repræsentationen i de binære tal, og vil derfor operere ud fra talmæssige logikker.
Et godt eksempel er sortering af en række navne repræsenteret i f.eks. tegnsættene ASCII eller Unicode. De enkelte bogstaver er repræsenteret således, at bogstavet A er repræsenteret af et lavere tal end B, osv. Herudfra kan computeren aflæse, hvilket navn der finder sin plads øverst, osv.
Når vi i dag bruger en computer, tænker vi ikke på, at dens formål er at strukturere og behandle data, idet vi bruger den til mange formål, der ikke umiddelbart kan presses ind i denne definition. Men de underliggende processer involverer altid disse to formål, og det er computerens imponerende evne til at lagre og behandle data, der kan tænkes ind i, og benyttes til så mange forskellige formål.
Lagring
På ikke-flygtige medier som harddiske, disketter eller andre lagringsmedier lagres data permanent. En formateret harddisk har en magnetisk overflade, der er inddelt i et gitterværk af små arealer, ordnet i en række koncentriske spor, der ligesom årringe fordeler sig om pladens centrum. Hvert spor inddeles videre i sektorer, og sektorerne igen i bits og bytes.
Når der skrives på en harddisk, lagres der positive eller negative signaler. Når operativsystemet modtager meddelelse om, at en datafil skal slettes, bliver de lagrede bytes fritstillet af operativsystemet til senere overskrivning, men bliver, hvor de er. Derfor vil en bruger kunne genskabe "slettede" data, indtil den slettede fils bitpositioner helt eller delvis er blevet overskrevet af nye data fra en senere fil. Den første datagenskabelse i kommerciel form blev etableret af Peter Norton, hvis firma senere skabte et antivirus-program.
Billedligt kan man fremstille operativsystemets almindelige måde at håndtere filer og sletning på som et bibliotekssystem, hvor hver fil får et kartotekskort med angivelse af de spor, sektorer og bytesadresser, som filen har reserveret plads til. Det svarer til en angivelse af den plads på en reol, som en bog får tildelt. Ved sletningen ophæves reservationen, men både kortet og bogen bliver stående.
Gendannelse af data
Man antog tidligere, at hysterese (selvmagnetisering) ingen rolle spiller i forbindelse med datasletning. Med andre ord: når filen først er overskrevet, mente man, at filen ikke ville kunne genskabes. Men selvmagnetisering indebærer, at der i udkanten af bitpositionen vil kunne spores data, der er blevet overskrevet. Det kan i sin simple form finde sted ved såkaldt skewing, det vil sige en lille rykning af hele bitmønstret, så læsehovedet konsekvent leder i udkanten i stedet for i midten af hver bitposition. Man kan også forestille sig, at der søges signaler med en svagere styrke. Det ledte til, at USAs forsvarsministerium i en de facto standard 5220-22 M først i 1990'erne anbefalede en slettemetode, hvor der overskrives over alt på området først med binære nuller, derefter med binære ettaller og afsluttes med en overskrivning af tilfældige tegn.
Overskrivning
I almindelighed antages tre overskrivninger i dag som utilstrækkelig. Det skyldes flere forhold. Væsentligste årsag er, at der indenfor forensic-laboratorier til datagenskabelse arbejdes meget systematisk med at skille harddiskens plader ad og påmontere meget følsomme læsehoveder. Spændvidden mellem meget gamle harddiske (100 MB fx) og moderne på 500 GB og læsehovederne til de sidste er ret oplagt. Hertil kommer, at bitsarealerne ikke er lige store. På de fleste harddiske er sporene koncentriske cirkler. Ydersporene indeholder præcis lige så mange bytes som det inderste spor og optager derfor et langt større areal. Tager man et nyt læsehoved og tænker det påmonteret en ældre harddisk, så vil arealet pr byte i ydersporet være ganske stort. Det har ledt til en overskrivningspraksis, hvor man mindst overskriver 7 gange og hvis spændvidden antages at være stor, så et endnu højere antal overskrivninger.
I forbindelse med anvendelsen af tilfældige tegn er det almindeligt at anvende et såkaldt seed, det vil sige en sekvens af på forhånd dannede tilfældige tegn. Derfor har man været optaget af risikoen for, at det samme seed blev anvendt på den samme disk eller den samme fil flere gange. Rammer seedet præcis oveni det gamle, kan det påvises, at overskrivningen i relation til sletning ingen effekt har. Derfor er der udviklet flere former for praksis, der sikrer, at sandsynligheden herfor reduceres.
Et dansk arbejde har ført til away-algoritmen. Her påpeges i forlængelse af ovenstående, at et forensic-laboratorium vil kunne tænkes at fokusere ved skewing eller signalstyrkefiltrering på det sidste lag af data, før overskrivningerne fandt sted, idet de hidtidige overskrivningsmetoder overskriver hele arealet (for eksempel filen eller disken) det samme antal gange. Der skal herefter kun én skewing eller én signalstyrkefiltrering til. Ved away-algoritmen overskrives diskens positioner ujævnt, så hver byte får tildelt sit individuelle antal overskrivninger, der varierer fra de øvrige bytes. Herved opnås, at man hverken ved skewing eller signalstyrkfiltrering vil kunne gendanne tidligere bitmønstre.
- Der er for få eller ingen kildehenvisninger i denne artikel, hvilket er et problem. Du kan hjælpe ved at angive troværdige kilder til de påstande, som fremføres i artiklen.