文字集合・文字セットとは?コンピュータでの文字表現の基本概念をわかりやすく解説
文字とは?
コンピュータにおいて、文字は二進数で表現される数字の集合です。つまり、文字自体は機械語であり、人間が読める形式に変換するテキストエディタなどのアプリケーションが必要になります。
文字集合とは?
文字集合とは、使用される文字の集まりです。たとえば、日本語の場合はひらがな、カタカナ、漢字などの文字があります。一方、英語の場合はアルファベットの26文字があります。
文字セットとは?
文字セットは、文字集合がコンピュータ内部でどのように扱われるかを定義するものです。具体的には、文字コードとも呼ばれる各文字に対応する数字の割り当て方やビット数、エンドラング文などの情報が含まれます。
代表的な文字セットには、ASCII、Unicode、Shift JISなどがあります。ASCIIはアルファベット、数字、記号など127種類の文字を定義しています。Unicodeは世界中の文字を収録する大規模な文字セットであり、現在最新版のUnicode 13.0では143,859の文字が定義されています。Shift JISは日本語の文字セットであり、漢字を含めた約6,000の文字が定義されています。
まとめ
コンピュータでの文字表現には、文字集合と文字セットの概念があります。文字集合は使用される文字の集まり、文字セットは文字集合がコンピュータ内部でどのように扱われるかを定義するものです。文字セットには、ASCII、Unicode、Shift JISなどがあります。プログラマーにとって、適切な文字セットを選択することは非常に重要です。