Programmering: hur du identifierar och läsa UTF-8-tecken i text snören... (2 / 16 steg)
Steg 2: Valfria påminnelse om Unicode:
Unicode är kompatibel med den gamla ASCII-standarden (vilket innebär att de första 128 tecknen i Unicode har samma koder än de från ASCII), och innehåller varje kod för varje möjliga tecken och symboler för varje alfabet, adjabs och logogram av alla nationer och kulturer i världen. Och för närvarande finns det ca 100 000 olika karaktärer.
Detta innebär att vi behöver mer än 1 byte att lagra koden för de flesta av dem.
Med en byte (8 bitar), kunde vi koda endast 256 första Unicode-tecken (som är ASCII-kompatibel)
Med två byte (16 bitar), kunde vi koda 65 536 första Unicode-tecken.
Med fyra byte (32 bitar), kunde vi koda dem alla, och ännu mer...
Så verkar det mest universella sättet att förvara Unicode-kompatibel text i datorfiler skulle vara att använda 4 byte per tecken.
Gamla ASCII-textfiler skulle dock bli oläslig (som de använder bara 1 byte per tecken). Och konvertera dem till 4 byte per tecken skulle slösa en massa utrymme (fyra tiden mer utrymme)...
Det är därför de uppfann olika kodning metoder för att koda Unicode-text utan att slösa för mycket utrymme, och hålla kompatibilitet med gamla ASCII-filer. Dessa kodning metoder namnges: UTF-7, UTF-8, UTF-16 och UTF-32.
.