サロゲートペアとは? – Unicodeにおいて2つのコードポイントで表される文字のことについて解説
Unicodeとは、文字をコンピューターで扱う際に使われる文字コードの規格であり、世界中の文字を表現することができます。しかし、Unicodeには「サロゲートペア」と呼ばれる特殊な文字が存在します。
サロゲートペアとは、Unicodeで4バイト(32ビット)で表される文字のことであり、2つのコードポイント(16ビットずつ)で表現されます。通常、Unicodeで使われる文字は2バイト(16ビット)以内で表現されますが、世界中の言語が使われるために、4バイトを使って表現する必要があるのです。
サロゲートペアは、基本的に絵文字や漢字の一部など、文字の中で多く使われます。例えば、「 」や「 」といった文字がそれに当たります。
しかし、サロゲートペアは、扱いが少し特殊なため、プログラミングにおいて意図しないエラーが起こることがあります。そのため、サロゲートペアに関する知識を持ち、適切に扱うことが重要です。
Unicodeを使って多様な文字を表現することができる一方で、その中にはサロゲートペアと呼ばれる特殊な文字が存在します。この記事を読んで、サロゲートペアについて理解を深め、プログラミングにおいて正しく扱えるようにしましょう。
参考記事
合わせて読みたい
【Google Chrome】右クリックで翻訳がでなくなった時の対策方法の決定版