首頁>技術>

1 前言

Q格式是二進位制的定點數格式,相對於浮點數,Q格式指定了相應的小數位數和整數位數,在沒有浮點運算的平臺上,可以更快地對浮點資料進行處理,以及應用在需要恆定解析度的程式中(浮點數的精度是會變化的);需要注意的是Q格式是概念上小數定點,透過選擇常規的二進位制數整數位數和小數位數,從而達到所需要的數值範圍和精度,這裡可能有點抽象,下面繼續看介紹。

2 Q資料的表示2.1 範圍和精度

定點數通常表示為,其中m為整數個數,n為小數個數,其中最高位位符號位並且以二進位制補碼的形式儲存;

範圍:精度:

無符號的用

表示;

範圍:精度:2.2 推導

無符號Q格式資料的推導這裡以一個16位無符號整數為例,

所能表示的最大資料的二進位制形式如下圖所示;

所以不難看出,

的範圍大小和精度;根據等比數列求和公式得到,整數域最大值如下:

小數域最大值如下:

因此

的範圍滿足

有符號Q格式資料的推導這裡以一個16位有符號整數為例,

所能表示的最大資料的二進位制形式如下圖所示;

所以不難求出,

的範圍大小和精度;根據等比數列求和公式得到,整數域最大值如下:

小數域最大值如下:

因此最大能表示的數為:

所能表示的最小資料的二進位制形式如下圖所示;

可以從圖中看到,該數表示為 ;

補充一下:負數在計算機中是補碼的形式存在的,補碼=反碼+1,符號位為1則表示為負數;那麼-4該如何表示呢?以8 bit資料為例,如下所示;原碼:0B 0000 100反碼:0B 1111 011補碼:0B 1111 100

綜上,可以得到有符號的範圍是:

3 Q資料的運算3.1 0x7FFF

最大數的十六進位制為0x7FFF,如下圖所示;

3.2 0x8000

最小數的十六進位制為0X8000,如下圖所示;

上述這兩種情況,下面都會用到。

3.3 加法

加法和減法需要兩個Q格式的資料定標相同,即

滿足以下條件;

int16_t q_add(int16_t a, int16_t b){    return a + b;}

上面的程式其實並不安全,在一般的DSP晶片具有防止溢位的指令,但是通常需要做一下溢位檢測,具體如下所示;

//https://great.blog.csdn.net/int16_t q_add_sat(int16_t a, int16_t b){    int16_t result;    int32_t tmp;    tmp = (int32_t)a + (int32_t)b;    if (tmp > 0x7FFF)        tmp = 0x7FFF;    if (tmp < -1 * 0x8000)        tmp = -1 * 0x8000;    result = (int16_t)tmp;    return result;}
3.4 減法

類似於加法的操作,需要相同定標的兩個Q格式數進行相減,但是不會存在溢位的情況;

//https://great.blog.csdn.net/int16_t q_sub(int16_t a, int16_t b){    return a - b;}
3.5 乘法

乘法同樣需要考慮溢位的問題,這裡透過sat16函式,對溢位做了處理;

//https://great.blog.csdn.net/// precomputed value:#define K   (1 << (Q - 1))// saturate to range of int16_tint16_t sat16(int32_t x){    if (x > 0x7FFF) return 0x7FFF;    else if (x < -0x8000) return -0x8000;    else return (int16_t)x;}int16_t q_mul(int16_t a, int16_t b){    int16_t result;    int32_t temp;    temp = (int32_t)a * (int32_t)b; // result type is operand's type    // Rounding; mid values are rounded up    temp += K;    // Correct by dividing by base and saturate result    result = sat16(temp >> Q);    return result;}
3.6 除法
//https://great.blog.csdn.net/int16_t q_div(int16_t a, int16_t b){    /* pre-multiply by the base (Upscale to Q16 so that the result will be in Q8 format) */    int32_t temp = (int32_t)a << Q;    /* Rounding: mid values are rounded up (down for negative values). */    /* OR compare most significant bits i.e. if (((temp >> 31) & 1) == ((b >> 15) & 1)) */    if ((temp >= 0 && b >= 0) || (temp < 0 && b < 0)) {           temp += b / 2;    /* OR shift 1 bit i.e. temp += (b >> 1); */    } else {        temp -= b / 2;    /* OR shift 1 bit i.e. temp -= (b >> 1); */    }    return (int16_t)(temp / b);}
4 常見Q格式的資料範圍

定點數和浮點數轉換的關係滿足以下公式:

其中為,m表示整數位數,n表示小數位數;

#include <stdio.h>#include <stdint.h>#include <math.h>int main(){    // 0111 1111 1111 1111    int16_t q_max = 32767; // 0x7FFF    // 1000 0000 0000 0000    int16_t q_min = -32768; // 0x8000    float f_max = 0;    float f_min = 0;    printf("\r\n");    for (int8_t i = 15; i>=0; i--) {        f_max = (float)q_max / pow(2,i);        f_min = (float)q_min / pow(2,i);        printf("\t| Q %d | Q %d.%d| %f | %f |\r\n",               i,(15-i),i,f_max,f_min);    }    return 0;}

執行得到結果如下所示;

Q 格式QmnMaxMinQ 15Q 0.150.999969-1.000000Q 14Q 1.141.999939-2.000000Q 13Q 2.133.999878-4.000000Q 12Q 3.127.999756-8.000000Q 11Q 4.1115.999512-16.000000Q 10Q 5.1031.999023-32.000000Q 9Q 6.963.998047-64.000000Q 8Q 7.8127.996094-128.000000Q 7Q 8.7255.992188-256.000000Q 6Q 9.6511.984375-512.000000Q 5Q 10.51023.968750-1024.000000Q 4Q 11.42047.937500-2048.000000Q 3Q 12.34095.875000-4096.000000Q 2Q 13.28191.750000-8192.000000Q 1Q 14.116383.500000-16384.000000Q 0Q 15.032767.000000-32768.000000

5 0x5f3759df

Q格式雖然十分抽象,但是且看看這個數字0x5f3759df,感覺和Q格式有某種聯絡,它是雷神之錘3中的一個演算法的魔數,畢竟遊戲引擎需要充分考慮到效率,具體的由來可以看一下論文《Fast Inverse Square Root》,下面是原始碼中剝出來的快速平方根演算法;

float Q_rsqrt( float number ){    long i;    float x2, y;    const float threehalfs = 1.5F;    x2 = number * 0.5F;    y   = number;    i   = * ( long * ) &y;   // evil floating point bit level hacking    i   = 0x5f3759df - ( i >> 1 ); // what the fuck?    y   = * ( float * ) &i;    y   = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration    // y   = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed    #ifndef Q3_VM    #ifdef __linux__         assert( !isnan(y) ); // bk010122 - FPE?    #endif    #endif    return y;}  
6 總結

本文介紹了Q格式的表示方式以及相應的運算,另外需要注意在Q格式運算的時候,兩者定標必須相同,對於資料的溢位檢測也要做相應的處理。

23
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 容器技術之容器引擎與江湖門派