世界的な絵文字普及、UTF-8普及やUTF-16での4バイト文字扱い改善となるか
2017年11月15日 08:05
世界的な絵文字の普及によって、UTF-8の普及やUTF-16における4バイト文字の扱いが改善されつつあるという(絵文字がある種のUnicodeバグを世界から一掃しつつある件について)。
そもそも使用する文字が少ない欧米圏では、いわゆる「マルチバイト文字」の扱いに消極的、もしくは理解が足りないという歴史的な問題が存在した。そのためさまざまな文字エンコーディングが開発され、その後世界中のすべての文字を統一したエンコーディングで扱おうとする動きが出たものの、その結果欠点の多いUTF-16というエンコーディングを採用するプログラムや環境が登場したという。UTF-16では1文字を2バイトもしくは4バイトで表現するが、使用頻度の高い文字の多くは2バイトで表現されるため、「1文字=2バイト」を前提に処理を行ってしまうプログラムがあるという。
いっぽう、絵文字は基本的に1文字に4バイトが必要となる。そのため、「1文字=2バイト」を前提としたプログラムでは上手く処理できない。そのため、絵文字の普及によって適切に4バイトの文字を扱えないプログラムが改修されたり、 元々可変長が前提のUTF-8がより普及するのではないかとされている。