文字コードとは、文字をコンピュータで扱うためのルールです。
コンピュータは「あ」や「A」といった文字をそのまま理解できないため、
すべての文字は「数値の並び(バイト列)」として保存されています。
例えば、「A」という文字は「65」といった数値で表されます。
このように「どの文字をどの数値に変換するか」を決めたものが文字コードです。
もし文字コードがなければ、同じデータでも環境によって違う文字に見えてしまいます。
この両方が同じルール(文字コード)を使うことが重要です。
実務でよく使うものだけ押さえておけば十分です。
| 文字コード | 特徴 |
|---|---|
| UTF-8 | 世界標準。ほぼすべての文字に対応 |
| Shift_JIS | 日本のWindowsで使われてきた |
| UTF-16 | 一部のシステム内部で使用 |
基本は UTF-8を使えば問題ない ことがほとんどです。
文字化けはシンプルに言うと、違う文字コードで読み込んでしまうことで発生します。
このような場合、正しく表示されず、意味不明な文字になります。
実務でよくあるのが、CSVをExcelで開いたときの文字化けです。
主な原因はこれです。
ExcelがCSVをShift_JISとして読み込むことがあるため
→ 文字化け
このどちらかで大体解決できます。