Data warehouse

Et data warehouse er en samling af elektroniske data, fra forskellige kilder, der er organiseret så de bedst muligt giver mulighed for at lave rapporter og analyse af data. Det kan f.eks. bruges af en organisation, der ønsker at indsamle data om sine produktionsenheders omsætning per dag, omkostninger per dag eller lignende for at have et grundlag for at kunne træffe beslutninger.

Definition

Bill Inmon's formelle definition af et data warehouse er en computer database, der overholder følgende krav:

  • Emneorienteret, hvilket vil sige at data i databasen er organiseret så alle elementer, der er knyttet til et bestemt objekt eller begivenhed i den virkelige verden skal være knyttet sammen i database house'et.
  • Tidsafhængige, hvilket vil sige at data i database skal gemmes sammen med tidspunkt så man kan se hvordan data har ændret sig over tid.
  • Uforanderlige, hvilket skal forstås sådan at data aldrig ændres eller slettes, men beholdes så de kan bruges i fremtidige rapporter; og,
  • Integreret, hvilket betyder at data skal komme fra alle systemer organisationen bruger og at data skal være konsistente.

Historie

Data warehousing opstod i begyndelsen af 80'erne for at imødekomme behovet for tværgående rapportering i virksomheder, der i samme periode oplevede en hastigt voksende datamængde, dels pga. den generelle omlægning til større enheder og dels pga. den stigende edb anvendelse. Virksomhederne oplevede, at rapportering direkte ud fra produktionssystemernes datafiler og databaser gav en uhensigtsmæssig belastning af disse samt gav problemer med at sammenstille data fra forskellige systemer uden fælles definitioner.

Opbygning

Grundlaget for et data warehouse er en database, hvortil der regelmæssigt kopieres data fra produktionssystemer og andre informationskilder på en sådan måde, at data bliver sammenlignelige, dvs. samme nummersystem, samme tidsopdeling, samme begrebsdefinition. Yderligere tilstræbes det, at data renses for indtastningsfejl, utroværdige data og andet, der ville give fejl i rapporteringen, men som af forskellige grunde ikke rettes i produktionssystemerne.

Et data warehouse vil typisk opsamle flere års historik for at imødekomme rapportering i længere tidsperspektiver. Ideelt set vil et data warehouse indeholde data fra alle virksomhedens systemer, således der kan analyseres på alle sammenhænge og der kan dannes et totalbillede i rapporteringen, men typisk vil en virksomhed "hænge fast" i at kun enkelte afdelinger eller enkelte områder er dækket af data warehouse, pga. organisatoriske forhold eller tekniske barrierer.

Et data warehouse med detaljerede data for flere år vil ofte indeholde en overvældende datamængde og vil derfor dels kræve stor computerkapacitet og vil dels give store og uforudsigelige svartider for analyser og rapportering. For at løse denne problematik sker der en yderligere dataklargøring til rapportering, typisk opsummering af data og emneopdeling af data. Hermed kan man vælge at have detaljerede data med en begrænset historik, mens den fulde historik bibeholdes for eksempelvis ugesummer eller produktgruppesummer. Tilsvarende kan man opbygge emneorienterede såkaldte 'data marts', der understøtter er bestemt type rapportering, således man opnår den ønskede rapporthastighed.

Anvendelse

Udviklingen af data warehousing bevæger sig (især i kundecentrerede virksomheder) væk fra den traditionelle opfattelse som et historisk data-arkiv og i retning af operationalisering, dvs. at datawarehouse baseret funktionalitet bliver en væsentlig del af daglige forretningsprocesser. Dette sidste kræver at data er opdateret op til sidste minut, og forskellen til operationelle systemer bliver herved mindre og mindre.

Den typiske nuværende struktur, hvor data warehouse er et separat, centraliseret analysesystem, forventes i fremtiden gradvist afløst af øget analysekapacitet i de såkaldte ERP systemer (integrerede virksomhedssystemer), hvorved en del af de ovenfor beskrevne processer overflødiggøres. Tilsvarende vil nye webbaserede integrationsmetoder muliggøre at der kan analyseres på data uden de først kopieres ud fra kildesystemet.

Relaterede emner

Data warehouse opfattes i dag som et begreb under business intelligence.