Unicode a UTF-8

Anonim

Unicode vs UTF-8

Vývoj produktu Unicode byl zaměřen na vytvoření nového standardu pro mapování znaků ve velké většině používaných jazyků spolu s dalšími znaky, které nejsou tak důležité, ale mohou být nezbytné pro vytváření textu. UTF-8 je pouze jedním z mnoha způsobů, jak zakódovat soubory, protože existuje mnoho způsobů, jak kódovat znaky uvnitř souboru do Unicode.

UTF-8 byl vyvinut s ohledem na kompatibilitu. ASCII byl velmi prominentní standard a lidé, kteří již měli své soubory ve standardu ASCII, mohou váhat při přijímání Unicode, protože by narušily jejich současné systémy. UTF-8 vyloučil tento problém, protože jakýkoli kódovaný soubor, který má pouze znaky v znakové sadě ASCII, by měl za následek identický soubor, jako kdyby byl kódován ASCII. To umožnilo lidem přijímat Unicode, aniž by museli konvertovat své soubory nebo dokonce měnit svůj současný starší software, který si nebyl vědom standardu Unicode. Každá z ostatních mapovacích metod pro Unicode porušuje kompatibilitu s ASCII a přiměje lidi, aby konvertovali svůj systém.

Dodržování kompatibility s ASCII UTF-8 vytváří vedlejší efekt, který je ideální pro textové zpracování, kde většina použitých znaků je součástí znakové sady ASCII. UTF-8 používá pouze jeden bajt, který reprezentuje každý kódový bod a výsledkem je velikost souboru, která je polovina stejného souboru zakódovaného v UT-16, který používá 2 bajty a čtvrtina do stejného souboru zakódovaného v UTF-32, který používá 4.

UTF-8 byl přijat na World Wide Web, protože je prostorově efektivní a orientovaný bytem. Webové stránky jsou často jednoduché textové soubory, které obvykle neobsahují žádný znak, který je mimo znakovou sadu ASCII. Použití jiných metod kódování by zvýšilo zatížení sítě pouze bez výhod. Dokonce i v poštovních transportních systémech se UTF-8 pomalu, ale jistě přijímá jako náhrada starších kódovacích systémů, které se stále používají.

Souhrn: 1. Unicode je standard pro počítače pro zobrazení a manipulaci s textem, zatímco UTF-8 je jednou z mnoha mapovacích metod pro Unicode 2. UTF-8 je metoda mapování zachovává kompatibilitu se starší ASCII 3. UTF-8 je nejkompaktnější metoda mapování pro Unicode ve srovnání s jinými metodami kódování 4. UTF-8 je nejvíce používaný standard Unicode pro web