本文尝试着将以下内容做一个浅显的解释,主要包括浮点数为什么是不精确的,浮点数为什么不能用==和!=直接比较,以及浮点数的比较方法等几个方面。如果那个地方说的不对还请各位看官不吝赐教!欢迎大家评论区讨论。
IEEE 754 --- 二进制浮点数算术标准
浮点格式是一种数据结构,用于指定包含浮点数的字段,这些字段的布局及其算术解释。自计算机发明以来,出现了许多种不同的浮点数表达方式,目前最通用的是IEEE二进制浮点数算是标准-IEEE 754.
IEEE 754规定了四种表示浮点数值的方式:单精确度(32位)、双精确度(64位)、延伸单精确度(43比特以上,很少使用)与延伸双精确度(79比特以上,通常以80位实现)。只有32位模式有强制要求,其他都是选择性的。大部分编程语言都有提供IEEE浮点数格式与算术,但有些将其列为非必需的。例如,IEEE 754问世之前就有的C语言,现在有包括IEEE算术,但不算作强制要求(C语言的float通常是指IEEE单精确度,而double是指双精确度)。
二进制如何表示浮点数的
所有的数据在计算机内都已二进制形式表示,那么浮点数的在计算机内是如何以二进制形式存储的呢?
二进制浮点数是以符号数值表示法的格式存储——浮点数由三部分组成:符号(sign部分,表示符号0正,1负数),指数(exponent部分,表示指数位),和尾数(fraction部分,表示有效数字,大于等于1,小于2)。
单精度浮点数来说,sign占1位,exponent部分占8位,fraction部分占23位。
双精度浮点数来说,sign占1位,exponent部分占11位,fraction部分占52位。
那么该如何理解上面这段话呢?举例来说,十进制的5.0,写成二进制是101.0,相当于1.01×2^2。那么,按照上面那段话,可以得出符号位sign为0,fraction部分为1.01,exponent部分为2。
二进制十进制相互转换
先介绍一下转换采用的规则:
- 二进制转十进制规则:
R进制转换成十进制:基数为R的数字,只要将各个数字与它的权相乘,其积相加,和数就是十进制数。
- 十进制转二进制规则:
整数部分:正整数转成二进制。要点一定一定要记住哈:除二取余,然后倒序排列,高位补零。
小数部分:小数部分的转换规则:十进制小数转换成二进制小数采用"乘2取整,顺序排列"法。具体做法是:用2乘十进制小数,可以得到积,将积的整数部分取出,再用2乘余下的小数部分,又得到一个积,再将积的整数部分取出,如此进行,直到积中的小数部分为零,如果得不到零就截取达到所要求的精度就可以。 然后把取出的整数部分按顺序排列起来,先取的整数作为二进制小数的高位有效位,后取的整数作为低位有效位。
例1: 把二进制数110.0101转换为十进制数:
110.0101=12^2+121+0*20+02^(-1)+12(-2)+0*2(-3)+1*2^(-4)=6.3125
例2: 把十进制数8.125转换成二进制数:
整数部分:
13 = 1000,
小数部分:
0.125x2 = 0.25, 整数位是0->1000.0;
0.25x2 = 0.5, 整数位是0->1000.00;
0.5x2 = 1, 整数位是1->1000.001;
所以8.125 转换成二进制是1000.001
例3: 把十进制数0.1转换为二进制数。
0.1x2 = 0.2, 整数位是0 -> 0.0;
0.2x2 = 0.4, 整数位是0 -> 0.00;
0.4x2 = 0.8, 整数位是0 -> 0.000;
0.8x2 = 1.6, 整数位是1 -> 0.0001;
0.6x2 = 1.2, 整数位是1 -> 0.00011;
0.2x2 = 0.4, 整数位是0 -> 0.000110;
...
得到一个无限循环的二进制小数,显然用有限的字长是无法表示0.1的。告诉你一个悲伤的消息0.2,0.4,0.6,0.8,0.3,0.7,0.9都是无法精确表示的。只有0.5可以用二进制精确表示。拿这些无法精确表示的数该怎么办呢?我们在十进制转二进制的规则里说过,如果没有得到0,就截取达到所要求的精度就可以。由此可知,一个十进制小数要能用二进制浮点数精确表示,最后一位必须是5.当然这是必要条件,并非充分条件。由此可以看出,一个十进制数能否用二进制浮点数精确便是,关键在于小数部分。
float比较方法
不可将浮点变量用“==”或“!=”做直接比较,而应该设法转化成能用“>=”或“<=”作比较的形式。由上可知计算机在处理浮点数的时候是有误差的,所以判断两个浮点数是不是相同,是要判断是不是落在同一个区间的,这个区间就是 [-EPSINON,EPSINON] EPSINON一般很小,10的-6次方以下,这个值肯定是越小越精确,不过也看具体的个情况,够用就好。
- float与“零值”比较
一般情况我们会定义一个很小的接近于0的值比如0.00001或者更小的,然后浮点数跟这个数作比较。
假设x是一个浮点数:
const float EPSINON = 0.00001;
if ((x >= - EPSINON) && (x <= EPSINON)
或者
if( abs(a-b) < FLT_EPSILON)
- float与float比较
假设x,y是两个浮点数是否相等:
const float EPSINON = 0.00001;
if( abs(a-b) <= EPSINON )
还有一种方法就是扩大再取整,比如4.113、4.114,直接比较有可能为 false,但是都扩大一千倍,然后强制转换为 int 类型,再用 == 比较就可以了。