< Cores por nome e número | Índice | Tabela ASCII >
Codificação de caracteres no HTML
O character set ou charset ou ainda character encoding é no português a codificação de caracteres, que nada mais é do que o padrão de relacionamento entre um conjunto de caracteres com outra coisa.
Essas coisas, podem ser pulsos elétricos, números, pares de caracteres e outros, e também para diferentes propósitos, como por exemplo, amostragem e a armazenagem.
Os browsers precisam saber em qual codificação a página foi escrita para poder mostrá-la para o usuário final.
A codficação usada no início da web era o ASCII.O ASCII têm números de 0-9, "A" ao "Z, tanto maiúsculas como minúsculas e alguns caracteres especiais.
Veja a codificação de caracteres ASCII completa.
Como muitos países usam caracteres que não são parte da codificação ASCII, o padrão para as linguagens ocidentais e browsers modernos se tornou o ISO-8859-1.
Veja a codificação completa do ISO-8859-1.
Se uma página usa um charset diferente do ISO-8859-1, isto deve ser especificado no documento html através de tag <meta>.
Codificação de caracteres ISO
ISO significa International Standards Organization, ou Organização Internacional de padrões , no português. Eles definem as codificações padrão para diferentes linguagens e alfabetos.
Algumas das codificações usadas no mundo estão listadas abaixo:
| Codificação | Descrição | Cobertura |
|---|---|---|
| ISO-8859-1 | Alfabeto Latino parte 1 | América do norte, Oeste Europeu, América Latina, Caribe, Canadá e África |
| ISO-8859-2 | Alfabeto Latino parte 2 | Leste Europeu |
| ISO-8859-3 | Alfabeto Latino parte 3 | Sudeste Europeu, Esperanto, e outros |
| ISO-8859-4 | Lfabeto Latino parte 4 | Scandinavia/Balcãs (e outros que não estão no ISO-8859-1) |
| ISO-8859-5 | Alfabeto Latino/Cirílico parte 5 | Linguagens que usam o alfabeto cirílico como Bulgaria, Bielorusia, Russia e Macedônia |
| ISO-8859-6 | Alfabeto Latino/Arábico parte 6 | Linguagens que usam o alfabeto Arábico |
| ISO-8859-7 | Alfabeto Latino/Grego parte 7 | A linguagem grega moderna assim como símbolos matemáticos derivados do grego |
| ISO-8859-8 | Alfabeto Latino/Hebráico parte 8 | Linguagens que usam o alfabeto hebráico |
| ISO-8859-9 | Alfabeto Latino 5 parte 9 | A linguagem Turca. O mesmo que ISO-8859-1 com a exceção que caracteres turcos substituem os da Islândia |
| ISO-8859-10 | Alfabeto Latino 6 Sami, Nórdico, Eskimó | As linguagens nórdicas |
| ISO-8859-15 | Latin 9 (ou Latin 0) | Similar ao ISO 8859-1 mas substitui alguns elementos menos comuns com o símbolo do Euro e outros caracteres. |
| ISO-2022-JP | Latin/Japonês parte 1 | A linguagem Japonesa |
| ISO-2022-JP-2 | Latin/Japonês part 2 | A linguagem Japonesa |
| ISO-2022-KR | Latin/Coreano parte 1 | A linguagem Coreana |
O padrão Unicode
Pelas limitações de tamanho e de uso em ambientes multilinguais, O Unicode Consortium desenvolveu o padrão unicode.
O padrão unicode cobre todos os caracteres, pontuações e símbolos do mundo.
O Unicode habilita o processamento, armazenamento e intercâmbio de dados de texto independentemente de plataforma, programa ou linguagem.
O Consórcio Unicode
O consórcio Unicode desenvolve o padrão Unicode. Seu objetivo é substituir as codificações atuais pelo padrão Unicode Transformation Format ou simplesmente (UTF).
O padrão unicode se tornou um sucesso e foi implementado em XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc. O padrão unicode também suportado em muitos sistemas operacionais e todos os browsers modernos.
O consórcio Unicode coopera com organizações desenvolvedoras de padrões de liderança como a ISO, W3C, e ECMA.
Unicode pode ser implementado por codificações diferentes. As codificações mais comuns são o UTF-8 and UTF-16:
| Codificação | Descrição |
|---|---|
| UTF-8 | Um caractere no UTF8 pode ter de 1 a 4 bytes. UTF-8 pode representar qualquer caractere dentro do padrão Unicode. UTF-8 retroativamente compatível com o ASCII. UTF-8 é a codificação preferida para confecção de e-mails e páginas web. |
| UTF-16 | 16-bit UTF é uma codificação de comprimento variável, e capaz de representar todo o repertório de caracteres do Unicode. UTF-16 é usado nos principais sistemas operacionais como Microsoft Windows 2000/XP/2003/Vista/CE e em linguagens como Java e .NET . |
Dica: Os primeiros 256 caracteres do Unicode correspondem aos 256 caracteres da codificação ISO-8859-1.
Dica: Todos os processadores HTML 4 possuem suporte para o UTF-8, e todos os processadores de XHTML e XML usam o UTF-8 e UTF-16.
HTML Básico
- Capa
- Índice
- Introdução
- Começo
- Básico
- Elementos
- Atributos
- Títulos
- Parágrafos
- Formatação
- Fontes
- Estilos
- Links
- Imagens
- Tabelas
- Listas
- Formulários
- Frames
- Iframes
- Cores
HTML Avançado
HTML Media
XHTML
HTML5
HTML Referências