Programmering: hur du identifierar och läsa UTF-8-tecken i text snören... (4 / 16 steg)
Steg 4: Att hålla kompatibilitet med ASCII.
Unicode håller förenlighet med ASCII.
ASCII-tecken kodas från 32 till 127.
Koder från 0 till 31 är kontrollkoder används främst för sidnumrering: Tabellen baserar, vagnretur, slutet av strängen, osv...
(Obs: många av dessa kontrollkoder är föråldrade dagens.)
Alltså ASCII-tecken behöver endast 7 av de 8 bitarna i en byte kodas: 00000000 till 01111111 i binär.
Detta innebär att 8 bit av en ASCII-kod är alltid inställd på 0. (Påminnelse: Tänk på att bitar räknas från höger till vänster. 1. lite är alltså till höger, och den sista är längst till vänster).
Som i de flesta programmeringsspråk, den 8: e lite av en byte oftast används för att definiera tecknet (positiva eller negativa) av ett signerat värde, betyder också som undertecknat som innehåller en ASCII-kod kommer alltid att vara positiv (8: e biten anges till 0).
För kompatibilitet syfte, en UTF-8-kodning kommer att undvika för att använda positiva värden, eftersom en inkompatibla program kommer att tolka Unicode tecken kodas i 4 byte som 4 olika utökade ASCII-tecken: på grund av kontroller koden (0 till 31), vilket kan leda till olika oväntade resultat.