Programmering: hur du identifierar och läsa UTF-8-tecken i text snören... (10 / 16 steg)
om (myByte är som 110xxxxxx) {/ / vi ska läsa nästa byte myNextByte = Read_A_Byte_From (MinFil), om (myNextByte > = 0) eller (myNextByte är inte som 10yyyyyy) {/ / om vår nästa byte är större än 0 / / eller har fel format / / detta innebär att vår UTF-8-kod är missbildad / / eller att det inte är en UTF-8-text eller kod. / / kanske är det en utökad ASCII-text? / / bäst vi kan göra , här, är att / / behandla myByte och myNextByte som / / två utökade ASCII-tecken / / vi avbryta läsningen av myNextByte... Unread_A_Byte_From (MinFil); ... och vi tillbaka myByte som om det var en utökad ASCII tecken return myByte; } / / Om vi här, detta innebär att vi har / / en väl bildades UTF-8-kod. Vi kommer att avkoda det: myUnicode = xxxxxx << 6 | Yyyyyy; Vi grupperat våra 5 x bits och våra 6 y bitar / / in myUnicode. Vi kan nu gå tillbaka denna kod: återvända myUnicode;}