UTF8

UTF-8 (Unicode Transformation Format – 8-bit) je najbežnejší spôsob kódovania znakov, ktorý sa používa na reprezentáciu textu v počítačoch a na internete. Je to kódovanie, ktoré dokáže vyjadriť každý znak v rámci Unicode štandardu pomocou sekvencií 1 až 4 bajtov. UTF-8 je navrhnutý tak, aby bol spätné kompatibilný s ASCII, takže prvých 128 znakov (čo zodpovedá ASCII) je kódovaných rovnakým spôsobom.

UTF-8 má niekoľko výhod:

  1. Efektivita v pamäti: Pre znaky, ktoré patria do ASCII (napríklad písmená latinskej abecedy), používa iba 1 bajt. Pre ďalšie znaky, ako sú písmená s diakritikou, rôzne špeciálne znaky alebo znaky iných jazykov, používa viac bajtov (až 4).
  2. Kompatibilita s ASCII: Znaky ASCII sú kódované rovnakým spôsobom, čo znamená, že text, ktorý používa len ASCII, bude v UTF-8 rovnaký ako v starších kódovaniach, ako je ISO-8859-1 alebo Windows-1252.
  3. Univerzálnosť: UTF-8 dokáže zakódovať prakticky všetky znaky zo všetkých jazykov a symbolov v Unicode štandarde, vrátane čínskych, japonských a arabských znakov, ako aj rôznych emoji.
  4. Široká podpora: Väčšina moderných operačných systémov, webových prehliadačov, databáz a programovacích jazykov podporuje UTF-8 ako predvolený spôsob kódovania textu.

V praxi sa UTF-8 stalo de facto štandardom na internete a v mnohých softvérových aplikáciách na správu textu, pretože je veľmi flexibilné a efektívne.