Zhu.Yang

朱阳的个人博客(公众号:think123)

0%

浮点数在计算机中的表示方法

java基本数据类型数据范围

java中基本数据类型所占字节数:

1
2
3
4
5
6
7
8
9

System.out.println("Integer: " + Integer.SIZE/8); // 4
System.out.println("Short: " + Short.SIZE/8); // 2
System.out.println("Long: " + Long.SIZE/8); // 8
System.out.println("Byte: " + Byte.SIZE/8); // 1
System.out.println("Character: " + Character.SIZE/8); // 2
System.out.println("Float: " + Float.SIZE/8); // 4
System.out.println("Double: " + Double.SIZE/8); // 8

所以其表示范围如下:

1
2
3
4
5
6
7
数据类型        所占字节      表示范围  
byte 1(8bit) -128-127
short 2(16bit) -32768-32767
int 4(32bit) -2^31-2^31-1
long 8(64bit) -2^63-2^63-1
float 4(32bit) -3.4E+38-3.4E+38
double 8(64bit) -1.79E+308-1.79E+308

浮点数在计算机中如何表示

可以看出单精度float以及双精度的表示范围和其他基本数据类型的运算方式并不一致,那么这是为什么呢?这就涉及到了浮点数的表示方法,java语言在设计过程中,遵循了IEEE754标准

根据国际标准IEEE 754,任意一个二进制浮点数V可以表示成下面的形式:
表现形式

1
2
3
(-1)^s表示符号位,当s=0,V为正数;当s=1,V为负数。
M表示有效数字,大于等于1,小于2。
2^E表示指数位。

举例来说,十进制的5.0,写成二进制是101.0,相当于1.01×2^2。那么,按照上面V的格式,可以得出s=0,M=1.01,E=2。
十进制的-5.0,写成二进制是-101.0,相当于-1.01×2^2。那么,s=1,M=1.01,E=2。
IEEE 754规定,对于32位的浮点数,最高的1位是符号位s,接着的8位是指数E,剩下的23位为有效数字M。

32位浮点数

对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M。
64位浮点数

IEEE 754对有效数字M和指数E,还有一些特别规定。
前面说过,1≤M<2,也就是说,M可以写成1.xxxxxx的形式,其中xxxxxx表示小数部分。IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。

至于指数E,情况就比较复杂。首先,E为一个无符号整数(unsigned int)。这意味着,如果E为8位,它的取值范围为0255;如果E为11位,它的取值范围为02047。但是,我们知道,科学计数法中的E是可以出现负数的,所以IEEE 754规定,E的真实值必须再减去一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。
比如,2^10的E是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。

然后,指数E还可以再分成三种情况:

(1) E不全为0或不全为1。这时,浮点数就采用上面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。

(2) E全为0。这时,浮点数的指数E等于1-127(或者1-1023),有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于0的很小的数字。

(3) E全为1。这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s);如果有效数字M不全为0,表示这个数不是一个数(NaN)。

关于java中float说明

上面我们说过float的最小值是-3.4E+38,但是我们使用代码确发现:

1
System.out.println(Float.MIN_VALUE);//1.4E-45

这个1.4E-45是如何计算的?为什么仍然是一个正数呢?其实查看源代码可以发现这个值并不是float所表示的最小值,而是它所能表示的最接近0的数字(2^-149),这个如何得来的呢?可以查看IEEE754标准

上面说了32位浮点数的有效数字是23位,那么其表示的最大值为8388608(小于10^7),按照十进制表示法是8.388608*10^6,所以float表示的精度(十进制)是6位。

参考博客
浮点数的二进制表示-阮一峰

欢迎关注我的其它发布渠道