全角、半角

引自庖丁解牛的博客,若要看原文请点击这里

1.全角与半角的区别

汉字的特点使我们碰到了两个基本且又非常重要的概念,即全角与半角。形象的说,在使用英文输入法时,电脑屏幕上,一个英文字符(如a)所占的位置,人们称其为半角,而一个汉字所占的位置则等于两个英文字符,故称其为全角。
英文输入法下,无论是输入字母、符号还是数字,始终都只占一个英文字符的位置,即半角。但在中文输入法下,则会有全角半角两种选择,对中文字符来说,这两种选择对其没有影响,它始终都要占两个英文字符的位置,但对此状态下输入的符号、数字以及英文字母来说,就显得很重要,如以下所示:
china
china
前者输入选择的是半角,后者为全角。在选择全角后,即便是字母、符号、数字都无一例外地要被当成汉字进行处理,视觉上看,由于它们占两个英文字符的位置,显得别扭了许多。

2.全角与半角的转化

Ansi多字节字体集在中文(汉字、中文符号)下即GBK编码,英文(英文字母、英文符号)下为ASCII码,一般来说,Ansi编码的文本便于程序的处理。对文本中字符串操作前,建议统一使用全角或半角。比如全角的空格“ ”(对应的GBK编码A1A1),而半角的空格“ ”(对应的ASCII编码为\x20),如果文本中混合使用,要查找空格位置或按空格分割段落时,显然两种空格会带来不必要的麻烦。文本中的内容可分为以下四类:

分类 解释 转换方法
汉字以及中文字符 如:“中国”、“好”等汉字和“……”“——”等中文中的特有符号,这些只能是全角,不存在转化的问题 NULL
英文字母与英文符号 指ASCII表中33-126对应的字符,如:!*+012abc{}等。它们有全角和半角两种形式,例如上述的china与china 半角转全角:前添加字节A3,原字节最高位置1 ····························································· 全角转半角:丢弃第一个字节,第二个字节最高位置0
空格 ASCII码的空格为\x20,GBK编码的空格为A1A1 和英文字母和英文符号不同,这个要特殊对待
控制字符 指ASCII表中0-31的字符,用于控制文件格式。如回车换行便对应\x0D\x0A(CR LF),这部分只能是半角,不需转化 NULL

由此,全角转半角的程序如下

/*
 *作者:侯凯
 *说明:全角与半角相互转化
 *日期:2013-6-9
 */
#include <iostream>
#include <fstream>
#include <string>
using std::string;
using namespace std;

const char sbc_high = -93; //全角字符的第一个字节为A3
const char sbc_space = -95; //全角空格为A1A1

//全角转半角
string SBC2DBC(const string &sbc)
{
    string dbc = "";
    int len = sbc.length();
    for (int i=0; i<len; ++i)
    {
        if (sbc[i] > 0)    //已经是单字节字符,或者是控制字符
        {
            dbc.append(1, sbc[i]);
        }
        else
        {
            if (sbc[i] == sbc_high)    //全角的英文字母或全角英文符号,如!(A3A1)
            {
                dbc.append(1, sbc[i+1]&0x7f);
            }
            else if (sbc[i]==sbc_space && sbc[i+1]==sbc_space)    //单独处理空格
            {
                dbc.append(1, ' ');
            }
            else //针对汉字以及~……等中文符号
            {
                dbc += sbc.substr(i, 2);
            }
            ++i;
        }
    }
    return dbc;
}

半角转全角的程序如下

//半角转全角
string DBC2SBC(const string &dbc)

{
    string sbc = "";
    int len = dbc.length();
    for (int i=0; i<len; ++i)
    {
        if (dbc[i] < 0)    //已经是双字节字符,或者是汉字及中文符号
        {
            sbc += dbc.substr(i, 2);
            ++i;
        }
        else if (dbc[i] == ' ')    //单独处理空格
        {
            sbc += " ";
        }
        else
        {
            if (dbc[i]>=33 && dbc[i]<=126)//半角的英文字母或半角英文符号
            {
                sbc.append(1, sbc_high);
                sbc.append(1, dbc[i]|0x80);
            }
            else
            {
                sbc.append(1, dbc[i]);//控制字符
            }
        }
    }
    return sbc;
}
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容