Programmering: hur du identifierar och läsa UTF-8-tecken i text snören... (3 / 16 steg)
Steg 3: Vad är UTF-8?
UTF-8 är ett sätt att koda alla Unicode-tecken i en "traditionell" ASCII (vanlig text) fil.
ASCII-filer behöver endast en byte per tecken. Den är perfekt när du bara skriva på engelska.
Dock kan du behöva skriva ett kinesiskt tecken eller en matematisk formel i mitten av din text, och UTF-8 gör det möjligt: när koden för en Unicode-tecken inte passar i en enda byte, det kodas in i 2, 3 eller 4 byte.
Denna kodning försöker inte bryta gamla och traditionella ASCII-kodning.
Detta innebär att om du läser en UTF-8-text med en textredigerare som inte är UTF-8-kompatibel, varken redaktören kommer att krascha, varken formateringen av texten kommer att vara alla trasslat.
Istället för att visa ett enda och korrekt Unicode-tecken, visas oförenliga redigeraren 2, 3 eller 4 utökade ASCII-tecken.
Å andra sidan, kan en missbildad UTF-8-kod leda till oväntade problem om UTF-8 kompatibel text redaktör inte har varit korrekt kodade.