32位平台下
float 型: 占 4 字节,7 位有效数字
double 型:占 8 字节,15~16 位有效数字
浮点数的表示方法可以看这里 浮点数的表示方法
接下来以float 为例
IEEE-754中阶码的移码特别规定,要除去阶码的全0和全1状态,因此像float中阶码的取值不是0~255,而是1 ~ 254,也就是说这里的阶码的移码不是简单地由补码变符号而来,还要减1,换个说法就是偏移量不为128了,而为127。所以对于float来说,真正指数的范围为-126 ~+127,所表示的数范围也就为2^-126 ~2^127
那么最大值和最小值是怎么算的?
符号位 | 阶码 | 尾数 |
---|---|---|
S | E | M |
格式:
SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
N=S*2^e.M
S是符号位,那么可以知道 正数 的表示范围如下,
(2^-126 ~2^127) * 1.M
M的范围在 (0.1) 之间,所以可以看到其正数最小值和最大值为
2^-126 * 1.000... ≈ 2^-126
2^127 * 1.9999.. ≈ 2^128
可以用表示法表示为 2^128 用计算器计算出来保留小数两位就是 3.40e+38,即 3.4*10^38
虽然计算挺麻烦的,不过好在C里面提供float.h 供我们使用
#include <stdio.h>
#include <float.h>
int main()
{
printf("The maximum value of float = %.10e\n", FLT_MAX);
printf("The minimum value of float = %.10e\n", FLT_MIN);
printf("The number of digits in the number = %.10e\n", FLT_MANT_DIG);
}
浮点数的表示是不精确的,float 和 double 都不能保证可以把所有实数都准确的保存在计算机中,例子如下:
#include <stdio.h>
#include <stdlib.h>
int main()
{
float f = 99.9f;
printf("f = %f\n", f);
f = 0.0f;
for (int i = 0; i < 10; ++i)
{
f += 0.1;
}
printf("f = %f\n", f);
if (f == 1.0)
{
printf("all right\n");
}
return 0;
}
运行结果如下
f = 99.900002
f = 1.000000
*由于浮点数的表示是不精确的,所以不能直接比较两个数是否完全相等*。一般都是在允许的某个范围内认为某个个浮点数相等,如有两个浮点数a、b,允许的误差范围为 1e-6,则 fabs(a-b) <= 1e-6,即可认为 a 和 b 相等。linux
下使用 man fabs 可以获取更多帮助,1e-6则是科学计数法,表示10^(-6) ,即 0.000001。
还有一种方法就是扩大再取整,比如 a=1.21、b=1.21,直接比较 a==b 有可能为 false,但是 a 和 b 都扩大一百倍,然后强制转换为 int 类型,再用 == 比较就可以了。
如下代码使用
double a = 3456789.0;
double b = 0.3456789;
while (a > 1)
a /= 10.0;
printf("(a=%f) %s (b=%f) \n", a, a==b ? "==" : "!=", b);
printf("(a=%f) %s (b=%f) \n", a, fabs(a-b) <= 1e-6 ? "==" : "!=", b);
printf("(a=%f) %s (b=%f) \n", a, (int)a*10000000 == (int)b*10000000 ? "==" : "!=", b);
输出:
(a=0.345679) != (b=0.345679)
(a=0.345679) == (b=0.345679)
(a=0.345679) == (b=0.345679)
理论: IEEE 754-1985 是基数为2的浮点数表示,和十进制的互相转化有很大几率出现截断误差。==是判断二进制位,几乎任何时候都会出现错误。IEEE floating point