Big data

Denne visualisation af redigeringer på Wikipedia er skabt af IBM. Med en størrelse på adskillige terabytes er Wikipedias tekst og billeder et klassisk eksempel på big data.

Big data[1][2] er et begreb indenfor datalogi, der bredt dækker over indsamling, opbevaring,[3] analyse,[4] processering og fortolkning af enorme mængder af data. Som mange andre IT-ord har big data ingen dansk oversættelse.

Rammerne for big data har gennem årene rykket sig kraftigt. Man har således bevæget sig fra en opfattelse af gigabyte data som værende store datamængder, til at man i 2012 snakkede om petabyte og exabyte som store mængder.[5][6] Tendensen i retning af større datasæt har grundlag i muligheden for at trække supplerende information fra analyse af et enkelt sæt af stor mængde sammenhængende data, i sammenligning med adskilte, mindre sæt med den samme totale mængde data, der giver mulighed for at finde sammenhænge så man kan "spotte forretningstrends, fastslå forskningskvalitet, forebygge sygdomme, sammenholde juridiske citater, bekæmpe kriminalitet og holde øje med trafikforhold i realtid."[7][8]

Videnskabsmænd møder ofte begrænsninger som følge af store datasæt; sådanne områder kan inkludere meteorologi, genetik,[9] komplekse fysiske simulationer[10] og biologisk og miljømæssig forskning.[11]

I 2012 produceredes der på internettet enorme mængder af data, for eksempel via sociale tjenester som Facebook og Flickr.

Big data produceres ofte i real-tid, af f.eks. GPS-enheder og digitale sensorer som er indlejret i biler, sygehusudstyr mm. Man kan også have big data, som man ikke selv har en kopi af, men blot adgang til via API'er.

Kendetegn

Da "big data" oversat betyder "stor data" er det nærliggende at karakterisere big data som området der beskæftiger sig med store datamængder. Der er dog flere eksperter der argumenterer for at det ikke blot er størrelsen af datamængde der er afgørende for paradigmet omkring big data. Viktor Mayer-Schönberger og Kenneth Cukier fremdrager tre karakteristikker: At man er i stand til at analysere store datamængder frem for blot en stikprøve; at man er villig til at håndtere data som er rodet og ikke nødvendigvis eksakte; og at man ser efter korrelation frem for kausalitet.[12] Andre har karakteriseret big data ved tre v'er: "Velocity" (hurtighed i behandlingen af data), "Volume" (størrelsen af data) og "Variety" (forskelligartethed i data).[13]

Håndtering af big data

Når man arbejder med store mængder af heterogene data (big data), er det ofte at det traditionelle SQL-databaseparadigme ikke kan løse opgaven. Dels fordi man ikke kan lave en model, der kan rumme alle datas egenskaber, og dels skalerer de ikke til den enorme mængde data. Derfor håndterer man ofte big data i NoSQL databaser. Grundlæggende vælger man en type af database som understøtter, analyse af data på en bestemt måde. F.eks. vælger sociale netværk ofte at gemme informationer om hvem der er "venner" med hvem, i såkaldte grafdatabaser. Har man mange semistrukturerede informationer, vælger man ofte en såkaldt dokumentdatabase.

Referencer

  1. ^ White, Tom (10. maj 2012). Hadoop: The Definitive Guide. O'Reilly Media. s. 3. ISBN 978-1-4493-3877-0. (engelsk)
  2. ^ "MIKE2.0, Big Data Definition". Arkiveret fra originalen 25. september 2018. Hentet 22. december 2012. (engelsk)
  3. ^ Kusnetzky, Dan. "What is "Big Data?"". ZDNet. Arkiveret fra originalen 21. februar 2010. Hentet 22. december 2012. (engelsk)
  4. ^ Vance, Ashley (22. april 2010). "Start-Up Goes After Big Data With Hadoop Helper". New York Times Blog. (engelsk)
  5. ^ Francis, Matthew (2012-04-02). "Future telescope array drives development of exabyte processing". Hentet 2012-10-24. (engelsk)
  6. ^ Watters, Audrey (2010). "The Age of Exabytes: Tools and Approaches for Managing Big Data". Hewlett-Packard Development Company. Arkiveret fra originalen (Website/Slideshare) 16. marts 2013. Hentet 2012-10-24. (engelsk)
  7. ^ "E-Discovery Special Report: The Rising Tide of Nonlinear Review". Hudson Global. Arkiveret fra originalen 3. juli 2012. Hentet 1. juli 2012. by Cat Casey and Alejandra Perez (engelsk)
  8. ^ "What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review". Forbes. Hentet 1. juli 2012. (engelsk)
  9. ^ "Community cleverness required". Nature. 455 (7209): 1. 4. september 2008. doi:10.1038/455001a. (engelsk)
  10. ^ "Sandia sees data management challenges spiral". HPC Projects. 4. august 2009. Arkiveret fra originalen 3. april 2016. Hentet 22. december 2012. (engelsk)
  11. ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703-5. doi:10.1126/science.1197962. (engelsk)
  12. ^ Viktor Mayer-Schönberger og Kenneth Cukier (2013). Big data. ISBN 978-1-84854-791-9.
  13. ^ Anders Lisdorf (18. august 2014). "Big Data? Glem det". Version2.
ProgrammeringSpire
Denne artikel om datalogi eller et datalogi-relateret emne er en spire som bør udbygges. Du er velkommen til at hjælpe Wikipedia ved at udvide den.

Medier brugt på denne side

Gnome globe current event.svg
Forfatter/Opretter: David Vignoni (globe, clock face/ring), Anomie (clock hands), David Göthberg (making the clock red, shadows). Anomie and David G (putting all the parts together)., Licens: LGPL
Globe with clock to represent a "current event"
Clockimportant.svg
Forfatter/Opretter:

The original uploader was Yzmo at engelsk Wikipedia.

Later versions were uploaded by Tene at en.wikipedia., Licens: LGPL
This image is combined from the following two images.
Viegas-UserActivityonWikipedia.gif
Forfatter/Opretter: Fernanda B. Viégas, Licens: CC BY 2.0
Visualization of all editing activity by user "Pearle" on Wikipedia (Pearle is a robot). To find out more about this project, see (2007). "Visualizing Activity on Wikipedia with Chromograms". Proceedings of INTERACT.