Encoding Tests
CSV test files in UTF-8 (no BOM), UTF-8 with BOM, Shift_JIS, and CP932. For mojibake debugging and CSV import testing. Includes Japanese rows.
UTF-8(BOMなし)のCSVテストファイル
utf8.csv / 659 B
UTF-8 BOM付きのCSVテストファイル
utf8-bom.csv / 662 B
Shift_JISのCSVテストファイル
sjis.csv / 514 B
CP932(機種依存文字含む)のCSVテストファイル
cp932.csv / 518 B
Importância do teste de código de caracteres
No processamento de arquivos <code>CSV</code> que contêm japonês, a corrupção de caracteres devido a diferenças de codificação é frequente. O suporte varia de acordo com a ferramenta, por exemplo, <code>UTF-8</code> com BOM é recomendado ao importar no Excel.
Use estes arquivos de teste para validar se a funcionalidade de importação CSV e as bibliotecas de processamento de texto lidam corretamente com cada codificação de caracteres.
Características dos principais códigos de caracteres
- UTF-8: O mais comum. Padrão na maioria das linguagens de programação.
- UTF-8 BOM: Recomendado ao abrir CSV em japonês no Excel. Possui 3 bytes de EF BB BF no início.
- Shift_JIS: Amplamente usado em ambientes Windows. Alguns caracteres (como 〜, −, etc.) podem causar problemas.
- CP932: Versão estendida do Shift_JIS. Compatível com caracteres dependentes de dispositivo como 髙, 﨑 e colchetes de gancho.