Kādas ir rakstzīmju kodi, piemēram, ANSI un Unicode, un kā tās atšķiras?

2024 Autors: Geoffrey Carr | [email protected]. Pēdējoreiz modificēts: 2023-12-17 10:58

ASCII, UTF-8, ISO-8859 … Jūs, iespējams, esat redzējuši šos dīvainus apzīmējumus, kas peld pāri, bet ko viņi patiesībā nozīmē? Lasiet tālāk, izskaidrojot, kāda ir rakstzīmju kodēšana un kā šie akronīmi attiecas uz vienkāršu tekstu, ko mēs redzam uz ekrāna.

Pamata būvēšanas bloki

Kad mēs runājam par rakstisko valodu, mēs runājam par burti, kas ir vārdu veidojošie bloki, kuri pēc tam izveido teikumus, punktus utt. Burti ir simboli, kas pārstāv skaņas. Kad jūs runājat par valodu, jūs runājat par skaņu grupām, kas apvienojas, lai veidotu kādu nozīmi. Katrai valodu sistēmai ir sarežģīts noteikumu un definīciju kopums, kas regulē šīs nozīmes. Ja jums ir vārds, tas ir bezjēdzīgi, ja vien jūs nezināt, no kādas valodas tā ir, un jūs to lietojat ar citiem, kuri runā šajā valodā.

(Grantas, Tulu un Malayalam skriptu salīdzinājums, Vikipēdijas attēls)

Datoru pasaulē mēs izmantojam terminu "raksturs". Raksts ir sava veida abstrakts jēdziens, kas definēts ar specifiskiem parametriem, bet tas ir pamata jēgas vienība. Latīņu valoda "A" nav tāda pati kā grieķu "alfa" vai arābu "alifs", jo viņiem ir atšķirīgi konteksti - viņi ir no dažādām valodām un ir nedaudz atšķirīgi vārdos - tādēļ mēs varam teikt, ka tie ir dažādi rakstzīmes. Simbola vizuālo attēlojumu sauc par "glifu", un dažādas glifu kopas sauc par fontiem. Grupu rakstzīmes pieder pie "set" vai "repertuāra".

Kad jūs ierakstāt punktu un maināt fontu, jūs nemaināt burtu fonētiskās vērtības, jūs maināt to izskatu. Tas ir tikai kosmētikas līdzeklis (bet ne mazsvarīgi!). Dažās valodās, piemēram, senajā Ēģiptē un ķīniešu valodā, ir ideogrammas; tie attēlo veselas idejas, nevis skaņas, un to izteikumi laika gaitā un attālumā var mainīties. Ja jūs aizstājat vienu rakstzīmi citam, jūs aizstājat ideju. Tas ir vairāk nekā tikai burtu mainīšana, tas maina ideogrammu.

Rakstzīmju kodēšana

Kad tastatūrā ievadāt kaut ko vai ielādējat failu, kā dators zina, ko parādīt? Tas ir rakstzīmju kodējums. Teksts datorā faktiski nav burts, tas ir virkne pāra burtu un ciparu vērtību. Rakstzīmju kodēšana darbojas kā atslēga, kuras vērtības atbilst tām rakstzīmēm, tāpat kā ortogrāfija nosaka, kuras skaņas atbilst kādām burtiem. Morzes kods ir sava veida rakstzīmju kodējums. Tajā paskaidrots, kā garu un īsu vienību grupas, piemēram, pīkstieni, ir rakstzīmes. Morzes kodā rakstzīmes ir tikai angļu burti, cipari un pilnas pieturas. Ir daudzi datora rakstzīmju kodi, kas tulko burtu, ciparu, zīmju zīmes, pieturzīmes, starptautiskos simbolus utt.

Bieži vien šajā tēmā tiek lietots arī termins "kodu lapas". Tie būtībā ir rakstzīmju kodi, kurus lieto konkrēti uzņēmumi, bieži ar nelielām izmaiņām. Piemēram, Windows 1252 koda lapa (agrāk dēvēta par ANSI 1252) ir modificēta ISO-8859-1 forma. Viņi galvenokārt tiek izmantoti kā iekšēja sistēma, kas attiecas uz standarta un modificētiem rakstzīmju kodiem, kas ir raksturīgi vienām un tām pašām sistēmām. Agrāk rakstzīmju kodēšana nebija tik nozīmīga, jo datori savstarpēji nesazinoties. Tā kā internets kļūst arvien svarīgāks un tīklu veidošana ir izplatīta parādība, tā ir kļuvusi arvien svarīgāka par mūsu ikdienas dzīvi bez mums, to pat neapzinot.

Daudz dažādu veidu

Tur ir daudz dažādu rakstzīmju kodējumu, un tam ir daudz iemeslu. Kāda rakstzīmju kodēšana, kuru izvēlaties lietot, ir atkarīga no jūsu vajadzībām. Ja jūs sazināties krievu valodā, ir lietderīgi izmantot rakstzīmju kodējumu, kas atbalsta kiriliku. Ja jūs sazināties Korejā, tad jūs vēlaties kaut ko, kas labi atbilst Hangul un Hanja. Ja jūs esat matemātiķis, tad jūs vēlaties kaut ko, kas labi atspoguļo visus zinātniskos un matemātiskos simbolus, kā arī grieķu un latīņu valodas glifus. Ja jūs esat prankster, varbūt jūs gūtu labumu no otrā teksta. Un, ja vēlaties, lai visi šāda veida dokumenti tiktu apskatīti kādā konkrētā personā, jūs vēlaties, lai šifrēšana būtu diezgan izplatīta un viegli pieejama.

Apskatīsim dažus no visbiežāk sastopamajiem.

(ASCII tabulas fragments, attēls no asciitable.com)

ASCII - Amerikas standarta informācijas apmaiņas kods ir viens no vecākajiem rakstzīmju kodiem. Sākotnēji tā tika izstrādāta, pamatojoties uz telegrāfa kodiem un laika gaitā mainījās, iekļaujot vairāk simbolu un dažas novecojušas, nedrukātās vadības rakstzīmes. Tas, iespējams, ir tikpat vienkāršs kā jūs varat iegūt mūsdienu sistēmu ziņā, jo tas attiecas tikai uz latīņu alfabētu bez akcentētiem simboliem. Tā 7 bitu kodējums ļauj tikai 128 rakstzīmes, tāpēc pasaulē ir vairāki neoficiāli varianti.
ISO-8859 - Starptautiskā standartizācijas organizācija ir visplašāk izmantoto rakstzīmju kodējumu grupa, ir numurs 8859. Katru konkrētu kodējumu norāda ar numuru, ko bieži apraksta ar nosaukumu, piemēram, ISO-8859-3 (latīņu-3), ISO-8859-6 (latīņu / arābu valodā).Tas ir ASCII virsotne, kas nozīmē, ka pirmās 128 kodēšanas vērtības ir tādas pašas kā ASCII. Tomēr tas ir 8 bitu un ļauj 256 rakstzīmēm, tāpēc tas tiek izveidots no turienes un ietver daudz plašāku rakstzīmju kopu, un katra konkrētā kodēšana koncentrējas uz citu kritēriju kopu. Latin-1 iekļāva ķekarus ar akcentētiem burtiem un simboliem, bet vēlāk tika aizstāts ar pārskatītu komplektu ar nosaukumu Latin-9, kurā iekļauti atjaunotie glyfi, piemēram, eiro simbols.

(Tibetas skripta fragments, Unicode v4, no unicode.org)

Unicode - Šī kodēšanas standarta mērķis ir universālums. Pašlaik tajā ir iekļauti 93 skripti, kas tiek organizēti vairākos blokos, turklāt daudzos citos darbos. Unicode darbojas citādi nekā citi rakstzīmju kopumi, kas tieši tā vietā, lai tieši kodētu glifu, katra vērtība ir virzīta tālāk uz "koda punktu". Tās ir sešpadsmitas vērtības, kas atbilst rakstzīmēm, bet pašas glifes tiek sniegtas atsevišķā veidā ar programmu, piemēram, jūsu tīmekļa pārlūks. Šie kodi parasti tiek attēloti šādi: U + 0040 (kas nozīmē "@"). Īpašie kodējumi saskaņā ar Unicode standartu ir UTF-8 un UTF-16. UTF-8 mēģina atļaut maksimālu saderību ar ASCII. Tas ir 8 bitu, bet pieļauj visas rakstzīmes, izmantojot aizstāšanas mehānismu un vairāku vērtību pāri uz rakstzīmi. UTF-16 grāvji ir perfekta ASCII saderība, lai iegūtu pilnīgāku 16 bitu saderību ar standartu.
ISO-10646 - Tas nav faktiska kodēšana, tikai Unicode rakstzīmju kopa, kuru ISO standartizējusi. Tas galvenokārt ir svarīgi, jo tas ir rakstzīmju repertuārs, ko izmanto HTML. Trūkst daži no Unicode sniegtajām uzlabotākajām funkcijām, kas ļauj veikt salīdzināšanu, un labajā un kreisajā pusē kopā ar kreiso labo skriptu. Tomēr tas darbojas ļoti labi, lai to izmantotu internetā, jo tas ļauj izmantot dažādus skriptus un ļauj pārlūkam interpretēt glifu. Tas padara lokalizāciju nedaudz vieglāku.

Kāda encoding man vajadzētu izmantot?

Nu, ASCII darbojas lielākajai daļai angļu valodas runātāju, bet ne daudz. Biežāk jūs redzēsit ISO-8859-1, kas darbojas vairumā Rietumeiropas valodu. Pārējās ISO-8859 versijas darbojas kirilicas, arābu, grieķu vai citu specifisku skriptu veidā. Tomēr, ja jūs vēlaties parādīt vairākus skriptus tajā pašā dokumentā vai tajā pašā tīmekļa lapā, UTF-8 ļauj daudz labāk saderību. Tas arī ļoti labi darbojas cilvēkiem, kuri izmanto pareizas pieturzīmes, matemātikas simbolus vai aploksnes rakstzīmes, piemēram, laukumus un izvēles rūtiņas.

(Vairākas valodas vienā dokumentā, screenshot of gujaratsamachar.com)

Tomēr katram komplektam ir trūkumi. ASCII ir ierobežots ar tā pieturzīmēm, tādēļ tas nedarbojas neticami labi tipogrāfiski pareiziem labojumiem. Kāds veids kopēt / ielīmēt no Word tikai, lai būtu daži dīvaini kombināciju glyphs? Tas ir ISO-8859 trūkums, vai pareizāk, tā iespējamā sadarbspēja ar OS-specific koda lapām (mēs skatāmies uz JUMS, Microsoft!). UTF-8 galvenais trūkums ir nepietiekams atbalsts lietojumprogrammu rediģēšanai un publicēšanai. Vēl viena problēma ir tāda, ka pārlūkprogrammas bieži neinterpretē un vienkārši parāda UTF-8 kodētā rakstzīmju baitu secības atzīmi. Tas noved pie nevēlamu glifu parādīšanas. Un, protams, deklarējot vienu kodējumu un izmantojot rakstzīmes no citas, nedeklarējot / nepiesaistot tās pareizi tīmekļa lapā, pārlūkprogrammām ir grūti padarīt tos pareizi un meklētājprogrammās tos pareizi indeksēt.

Saviem dokumentiem, manuskriptiem un tā tālāk varat izmantot visu, kas jums nepieciešams, lai veiktu darbu. Ciktāl tīmeklī iet, šķiet, ka lielākā daļa cilvēku piekrīt izmantot UTF-8 versiju, kurā netiek izmantots baitu pasūtījumu marķējums, bet tas nav pilnībā vienprātīgs. Kā redzat, katram rakstzīmju kodam ir savs lietojums, konteksts un stiprās un vājās puses. Kā gala lietotājam jums, iespējams, nebūs jārisina šis jautājums, bet tagad jūs varat veikt papildu soli uz priekšu, ja jūs to izvēlaties.