Tegnsæt

Termen tegnsæt (eng. character set) indenfor datalogi anvendes mere eller mindre i flæng på dansk (og engelsk) om flere distinkte termer:[1]

  • tegnrepetoire (eng. character repetoire) - citat: "en mængde af distinkte tegn (incl. skrifttegn)."
  • tegnkode, tegnkodetabel (eng. character code) - citat: "en tabel som én-til-én-afbilder mellem skrifttegn i et tegnrepetoire - og en mængde af ikke-negative heltal."
  • tegnkodning (eng. character encoding) - citat: "en metode (algoritme) til at afbilde tegnkoder til oktetter."

Tegnrepetoirer

Bogstaverne er måske de mest benyttede skrifttegn, de kaldes alfabetiske tegn. Hertil kommer cifrene, som kaldes numeriske tegn. Mængden af skrifttegnene bogstaver og tal kaldes for alfanumeriske tegn.

De første tegnrepetoirer havde kun brug for 64 forskellige skrifttegn, hvilket omfatter store bogstaver, tal og andre skrifttegn. Det betød at man kunne nøjes med en tegnkodningsstørrelse på kun 6 bit.

Senere øgede man til 7 bit eller 128 mulige skrifttegn (fx US-ASCII), så både store og små bogstaver blev muligt.

Endelig skulle der også være plads til specielle bogstaver og symboler for enkelte lande, da elektronisk post blev hverdag, og så øgede man til 8 bit eller 256 tegn (fx ISO 8859, ECMA-35, ISO 2022).

8 bit eller 256 tegn er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnrepetoire.

I Unicode findes tegnkodninger på op til hele 32 bit, mens det vidt udbredte Unicode transformation format-8 (UTF-8) har et varierende antal bits (8,16,24,32) (Unicode 2014). Unicode er en fortløbende og meget lang talrække der på denne måde inkluderer under ét - bl.a. kinesisk, japansk, latinske og kyrilliske alfabeter, koptisk, gotisk, kileskrift, ogam og runealfabet samt endda tegn for nogle kunstsprog såsom fantasisproget Klingon.

Websiders brug af forskellige tegnrepetoirer som funktion af årstal. Kilde Google.

Eksempler på tegnrepetoirer:

  • 6-bit Fieldata fra Univac
  • 7-bit American Standard Code for Information Interchange, ((US-)ASCII) - er selv i år 2021 meget anvendt. ASCII var mest anvendt i internettets HTML-sider indtil år 2008 (se illustration).
  • 8-bit EBCDIC IBM's oprindelige tegnsæt
  • 8-bit ISO 8859 en række udvidelser af ASCII.
    • fx ISO 8859-1 en udvidelse af ASCII, der omfatter de fleste vesteuropæiske tegn incl. ÆØÅ. Første standard kom i marts 1985 og var pænt udbredt i bl.a. internettets HTML-sider (anvendelse toppede i 2005; se illustration).
  • Code-page - typisk proprietære tegnkodetabeller - nogle var meget udbredte - selv på (det ikke-proprietære) internet.
  • Unicode i flere tegnkodninger (og filformater), herunder UTF-8 der er almindelig i et GNU/Linux system (bitantal:8,16,24,32), og UTF-16 (bitantal:16,32) der også er kendt af Microsoft Windows. Det første unicode udkast blev defineret i august 1988 og den første standard blev offentliggjort i oktober 1991. Unicode blev den mest anvendte tegnkodetabel i internettets HTML-sider i 2008 (se illustration). Er i dag (2021) meget anvendt i bl.a. internettets HTML-sider (97,6%[2]) - og i styresystemer.

Se også

Kilder

Eksterne henvisninger

ProgrammeringSpire
Denne artikel om datalogi eller et datalogi-relateret emne er en spire som bør udbygges. Du er velkommen til at hjælpe Wikipedia ved at udvide den.

Medier brugt på denne side

Unicode Web growth.svg
Forfatter/Opretter: Chris55, Licens: CC BY-SA 4.0
Shows the usage of the main encodings on the web from 2001 to 2012 as recorded by Google

The "Unicode" line is actually UTF-8, as per the original source. Other Unicode encodings such as GB2312 have been added to "other". It is unclear why these modifications were done, they should be reverted.

Note that the ASCII only figure reflects web pages with any declared header if they only include ASCII characters. Since UTF-8 is the default character set from HTML5, its current figure is probably much higher. The trend is confirmed by more recent published statistics which aren't compatible.

West European includes ISO-8859-1 and Windows 1252. Others includes Chinese, Korean, Cyrillic, Eastern European, Arabic etc.