windows 乱码之 gbk 与 cp936

2022/1/13 7:05:56

本文主要是介绍windows 乱码之 gbk 与 cp936,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

windows 乱码之 gbk 与 cp936

在使用 node 子进程执行 cmd 命令时, 获取到的输出是乱码的.

const { execSync } = require('child_process')
const res = execSync(`echo nihao 你好`)
console.log(`resres`, String(res))

事发原因

这是由于控制台输入的编码与 node 程序中使用的编码不一致导致的.

相关疑问

可能你要问: 那是不是都改为 utf8 就行了? 并不行. 这就是 windows 控制台没有默认是 utf8 的原因, 并且 utf8 与 gbk 也不是兼容的.

如果理解不兼容?

假设你修改 windows 控制台为 cp65001(utf8) 之后, 如果输出的文本编码是 utf8 的, 那么可以正常显示. 但是如果在控制台中运行了某个程序, 他输入的文本是 gbk 的, 那依然会乱码.

查看控制台使用的编码:

chcp

你可能要问: widnows 默认 gbk , 是不是代表它除了编码问题之外, 都显示几乎所有的文字? 并不行. 这就是为什么还有 utf8 utf-16 的原因… gbk 只是在制定这个规范的时候, 能显示几乎所有中国的常见汉字. 那些一百来划的字或者生僻字, 就可能不能显示了.

所以我认为, 编码问题并没有完美的解决方案. 那么在中国的 windows 环境下就暂认为都是 gbk 吧, 在基于这个的前提下, 我们就可以进行转换了.

解决方法

在 node 中可以使用 iconv-lite 来进行转换.

const { execSync } = require('child_process')
const { decode } = require('iconv-lite')

const res = execSync(`echo nihao 你好`)
console.log(`resres`, decode(res, `gbk`) )

扩展知识

在 windows 上我们可以用 chcp 获取编码来判断是不是要进行 gbk 转换, 如果不是的话, 会转换错误.

所以最好进行一下判断, 例如:

// 判断当前环境是不是 gbk 编码
const isGBK = require(`child_process`).execSync(`chcp`, {encoding: `utf8`}).match(/936/)

当然, 也可以粗暴一点直接判断是不是中文环境, 是则使用 gbk:

/**
 * 判断当前系统是不是中文
 * @returns 
 */
function isZh(){
  return [
    // 代码页为 936
    () => require(`child_process`).execSync(`chcp`, {encoding: `utf8`}).match(/936/),
    // 注册表安装语言为 0804
    () => require(`child_process`).execSync(`reg query "HKEY_LOCAL_MACHINE\\SYSTEM\\ControlSet001\\Control\\Nls\\Language" /v InstallLanguage`, {encoding: `utf8`}).match(/0804/),
    // 查看版本时输出双字节字符
    () => require(`child_process`).execSync(`ver`, {encoding: `utf8`}).match(/[\u4e00-\u9fa5]/),
    // 控制台语言配置为 zh_CN
    () => process.env.LANG.match(`zh_CN`),
  ].some(item => {
    try {
      return item()
    } catch (error) {
      return false
    }
  })
}

注, 一般情况下在其他系统下例如 mac 上是没有这个问题的, 应该不会乱码, 不需要转 GBK.

关于 cp936 与 gbk

cp936 是 gbk, 936 是因为 IBM 发明代码页时, gbk 在代码页的第 936 页.

关键字:NLS,cp936,GBK

  • NLS(Native Language System)
  • cp - code page
  • GB - guo biao 国标
  • GBK - guo biao kuo 国标扩展 - cp936
  • ANSI - 表示默认

在“控制面板”-“区域和语言选项”-“高级”-“代码页转换表”可以看出“936 (ANSI/OEM - 简体中文 GBK)”

注, 某些文章说它们其实不一样~

参考

  • http://t.zoukankan.com/python168-p-12729259.html
  • https://blog.csdn.net/iteye_7333/article/details/82063777
  • https://www.cnblogs.com/finallyliuyu/archive/2013/05/10/3071023.html
  • https://www.zhihu.com/question/65219842
  • https://linux.cn/article-1213-1.html
  • https://www.cnpython.com/qa/286302
  • https://blog.csdn.net/xuejianhui/article/details/81214422

  • nodejs(三) —- nodejs进程与子进程 https://blog.csdn.net/weixin_33885253/article/details/86249211

  • Nodejs进阶:如何玩转子进程(child_process) https://www.cnblogs.com/chyingp/p/node-learning-guide-child_process.html
  • node如何手动关闭子进程 https://segmentfault.com/q/1010000012575278


这篇关于windows 乱码之 gbk 与 cp936的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程