struct --- 將字節串解讀為打包的二進(jìn)制數據?

源代碼: Lib/struct.py


此模塊可以執行 Python 值和以 Python bytes 對象表示的 C 結構之間的轉換。 這可以被用來(lái)處理存儲在文件中或是從網(wǎng)絡(luò )連接等其他來(lái)源獲取的二進(jìn)制數據。 它使用 格式字符串 作為 C 結構布局的精簡(jiǎn)描述以及與 Python 值的雙向轉換。

備注

默認情況下,打包給定 C 結構的結果會(huì )包含填充字節以使得所涉及的 C 類(lèi)型保持正確的對齊;類(lèi)似地,對齊在解包時(shí)也會(huì )被納入考慮。 選擇此種行為的目的是使得被打包結構的字節能與相應 C 結構在內存中的布局完全一致。 要處理平臺獨立的數據格式或省略隱式的填充字節,請使用 standard 大小和對齊而不是 native 大小和對齊:詳情參見(jiàn) 字節順序,大小和對齊方式。

某些 struct 的函數(以及 Struct 的方法)接受一個(gè) buffer 參數。 這將指向實(shí)現了 緩沖協(xié)議 并提供只讀或是可讀寫(xiě)緩沖的對象。 用于此目的的最常見(jiàn)類(lèi)型為 bytesbytearray,但許多其他可被視為字節數組的類(lèi)型也實(shí)現了緩沖協(xié)議,因此它們無(wú)需額外從 bytes 對象復制即可被讀取或填充。

函數和異常?

此模塊定義了下列異常和函數:

exception struct.error?

會(huì )在多種場(chǎng)合下被引發(fā)的異常;其參數為一個(gè)描述錯誤信息的字符串。

struct.pack(format, v1, v2, ...)?

返回一個(gè) bytes 對象,其中包含根據格式字符串 format 打包的值 v1, v2, ... 參數個(gè)數必須與格式字符串所要求的值完全匹配。

struct.pack_into(format, buffer, offset, v1, v2, ...)?

根據格式字符串 format 打包 v1, v2, ... 等值并將打包的字節串寫(xiě)入可寫(xiě)緩沖區 bufferoffset 開(kāi)始的位置。 請注意 offset 是必需的參數。

struct.unpack(format, buffer)?

根據格式字符串 format 從緩沖區 buffer 解包(假定是由 pack(format, ...) 打包)。 結果為一個(gè)元組,即使其只包含一個(gè)條目。 緩沖區的字節大小必須匹配格式所要求的大小,如 calcsize() 所示。

struct.unpack_from(format, /, buffer, offset=0)?

buffer 從位置 offset 開(kāi)始根據格式字符串 format 進(jìn)行解包。 結果為一個(gè)元組,即使其中只包含一個(gè)條目。 緩沖區的字節大小從位置 offset 開(kāi)始必須至少為 calcsize() 顯示的格式所要求的大小。

struct.iter_unpack(format, buffer)?

根據格式字符串 format 以迭代方式從緩沖區 buffer 解包。 此函數返回一個(gè)迭代器,它將從緩沖區讀取相同大小的塊直至其內容全部耗盡。 緩沖區的字節大小必須整數倍于格式所要求的大小,如 calcsize() 所示。

每次迭代將產(chǎn)生一個(gè)如格式字符串所指定的元組。

3.4 新版功能.

struct.calcsize(format)?

返回與格式字符串 format 相對應的結構的大?。ㄒ嗉?pack(format, ...) 所產(chǎn)生的字節串對象的大?。?。

格式字符串?

格式字符串是用來(lái)在打包和解包數據時(shí)指定預期布局的機制。 它們使用指定被打包/解包數據類(lèi)型的 格式字符 進(jìn)行構建。 此外,還有一些特殊字符用來(lái)控制 字節順序,大小和對齊方式。

字節順序,大小和對齊方式?

默認情況下,C類(lèi)型以機器的本機格式和字節順序表示,并在必要時(shí)通過(guò)跳過(guò)填充字節進(jìn)行正確對齊(根據C編譯器使用的規則)。

或者,根據下表,格式字符串的第一個(gè)字符可用于指示打包數據的字節順序,大小和對齊方式:

字符

字節順序

大小

對齊方式

@

按原字節

按原字節

按原字節

=

按原字節

標準

無(wú)

<

小端

標準

無(wú)

>

大端

標準

無(wú)

!

網(wǎng)絡(luò )(=大端)

標準

無(wú)

如果第一個(gè)字符不是其中之一,則假定為 '@' 。

本機字節順序可能為大端或是小端,取決于主機系統的不同。 例如, Intel x86 和 AMD64 (x86-64) 是小端的;Motorola 68000 和 PowerPC G5 是大端的;ARM 和 Intel Itanium 具有可切換的字節順序(雙端)。 請使用 sys.byteorder 來(lái)檢查你的系統字節順序。

本機大小和對齊方式是使用 C 編譯器的 sizeof 表達式來(lái)確定的。 這總是會(huì )與本機字節順序相綁定。

標準大小僅取決于格式字符;請參閱 格式字符 部分中的表格。

請注意 '@''=' 之間的區別:兩個(gè)都使用本機字節順序,但后者的大小和對齊方式是標準化的。

形式 '!' 代表網(wǎng)絡(luò )字節順序總是使用在 IETF RFC 1700 中所定義的大端序。

沒(méi)有什么方式能指定非本機字節順序(強制字節對調);請正確選擇使用 '<''>'。

注釋?zhuān)?/p>

  1. 填充只會(huì )在連續結構成員之間自動(dòng)添加。 填充不會(huì )添加到已編碼結構的開(kāi)頭和末尾。

  2. 當使用非本機大小和對齊方式即 '<', '>', '=', and '!' 時(shí)不會(huì )添加任何填充。

  3. 要將結構的末尾對齊到符合特定類(lèi)型的對齊要求,請以該類(lèi)型代碼加重復計數的零作為格式結束。 參見(jiàn) 例子。

格式字符?

格式字符具有以下含義;C 和 Python 值之間的按其指定類(lèi)型的轉換應當是相當明顯的。 ‘標準大小’列是指當使用標準大小時(shí)以字節表示的已打包值大??;也就是當格式字符串以 '<', '>', '!''=' 之一開(kāi)頭的情況。 當使用本機大小時(shí),已打包值的大小取決于具體的平臺。

格式

C 類(lèi)型

Python 類(lèi)型

標準大小

備注

x

填充字節

無(wú)

c

char

長(cháng)度為 1 的字節串

1

b

signed char

整數

1

(1), (2)

B

unsigned char

整數

1

(2)

?

_Bool

bool

1

(1)

h

short

整數

2

(2)

H

unsigned short

整數

2

(2)

i

int

整數

4

(2)

I

unsigned int

整數

4

(2)

l

long

整數

4

(2)

L

unsigned long

整數

4

(2)

q

long long

整數

8

(2)

Q

unsigned long long

整數

8

(2)

n

ssize_t

整數

(3)

N

size_t

整數

(3)

e

(6)

float

2

(4)

f

float

float

4

(4)

d

double

float

8

(4)

s

char[]

字節串

p

char[]

字節串

P

void*

整數

(5)

在 3.3 版更改: 增加了對 'n''N' 格式的支持

在 3.6 版更改: 添加了對 'e' 格式的支持。

注釋?zhuān)?/p>

  1. '?' 轉換碼對應于 C99 定義的 _Bool 類(lèi)型。 如果此類(lèi)型不可用,則使用 char 來(lái)模擬。 在標準模式下,它總是以一個(gè)字節表示。

  2. 當嘗試使用任何整數轉換碼打包一個(gè)非整數時(shí),如果該非整數具有 __index__() 方法,則會(huì )在打包之前調用該方法將參數轉換為一個(gè)整數。

    在 3.2 版更改: 增加了針對非整數使用 __index__() 方法的特性。

  3. 'n''N' 轉換碼僅對本機大小可用(選擇為默認或使用 '@' 字節順序字符)。 對于標準大小,你可以使用適合你的應用的任何其他整數格式。

  4. 對于 'f', 'd''e' 轉換碼,打包表示形式將使用 IEEE 754 binary32, binary64 或 binary16 格式 (分別對應于 'f', 'd''e'),無(wú)論平臺使用何種浮點(diǎn)格式。

  5. 'P' 格式字符僅對本機字節順序可用(選擇為默認或使用 '@' 字節順序字符)。 字節順序字符 '=' 選擇使用基于主機系統的小端或大端排序。 struct 模塊不會(huì )將其解讀為本機排序,因此 'P' 格式將不可用。

  6. IEEE 754 binary16 "半精度" 類(lèi)型是在 IEEE 754 標準 的 2008 修訂版中引入的。 它包含一個(gè)符號位,5 個(gè)指數位和 11 個(gè)精度位(明確存儲 10 位),可以完全精確地表示大致范圍在 6.1e-056.5e+04 之間的數字。 此類(lèi)型并不被 C 編譯器廣泛支持:在一臺典型的機器上,可以使用 unsigned short 進(jìn)行存儲,但不會(huì )被用于數學(xué)運算。 請參閱維基百科頁(yè)面 half-precision floating-point format 了解詳情。

格式字符之前可以帶有整數重復計數。 例如,格式字符串 '4h' 的含義與 'hhhh' 完全相同。

格式之間的空白字符會(huì )被忽略;但是計數及其格式字符中不可有空白字符。

對于 's' 格式字符,計數會(huì )被解析為字節的長(cháng)度,而不是像其他格式字符那樣的重復計數;例如,'10s' 表示一個(gè) 10 字節的字節串,而 '10c' 表示 10 個(gè)字符。 如果未給出計數,則默認值為 1。 對于打包操作,字節串會(huì )被適當地截斷或填充空字節以符合要求。 對于解包操作,結果字節對象總是恰好具有指定數量的字節。 作為特殊情況,'0s' 表示一個(gè)空字符串(而 '0c' 表示 0 個(gè)字符)。

當使用某一種整數格式 ('b', 'B', 'h', 'H', 'i', 'I', 'l', 'L', 'q', 'Q') 打包值 x 時(shí),如果 x 在該格式的有效范圍之外則將引發(fā) struct.error。

在 3.1 版更改: 在之前版本中,某些整數格式包裝了超范圍的值并會(huì )引發(fā) DeprecationWarning 而不是 struct.error。

'p' 格式字符用于編碼“Pascal 字符串”,即存儲在由計數指定的 固定長(cháng)度字節 中的可變長(cháng)度短字符串。 所存儲的第一個(gè)字節為字符串長(cháng)度或 255 中的較小值。 之后是字符串對應的字節。 如果傳入 pack() 的字符串過(guò)長(cháng)(超過(guò)計數值減 1),則只有字符串前 count-1 個(gè)字節會(huì )被存儲。 如果字符串短于 count-1,則會(huì )填充空字節以使得恰好使用了 count 個(gè)字節。 請注意對于 unpack(),'p' 格式字符會(huì )消耗 count 個(gè)字節,但返回的字符串永遠不會(huì )包含超過(guò) 255 個(gè)字節。

對于 '?' 格式字符,返回值為 TrueFalse。 在打包時(shí)將會(huì )使用參數對象的邏輯值。 以本機或標準 bool 類(lèi)型表示的 0 或 1 將被打包,任何非零值在解包時(shí)將為 True。

例子?

備注

所有示例都假定使用一臺大端機器的本機字節順序、大小和對齊方式。

打包/解包三個(gè)整數的基礎示例:

>>>
>>> from struct import *
>>> pack('hhl', 1, 2, 3)
b'\x00\x01\x00\x02\x00\x00\x00\x03'
>>> unpack('hhl', b'\x00\x01\x00\x02\x00\x00\x00\x03')
(1, 2, 3)
>>> calcsize('hhl')
8

解包的字段可通過(guò)將它們賦值給變量或將結果包裝為一個(gè)具名元組來(lái)命名:

>>>
>>> record = b'raymond   \x32\x12\x08\x01\x08'
>>> name, serialnum, school, gradelevel = unpack('<10sHHb', record)

>>> from collections import namedtuple
>>> Student = namedtuple('Student', 'name serialnum school gradelevel')
>>> Student._make(unpack('<10sHHb', record))
Student(name=b'raymond   ', serialnum=4658, school=264, gradelevel=8)

格式字符的順序可能對大小產(chǎn)生影響,因為滿(mǎn)足對齊要求所需的填充是不同的:

>>>
>>> pack('ci', b'*', 0x12131415)
b'*\x00\x00\x00\x12\x13\x14\x15'
>>> pack('ic', 0x12131415, b'*')
b'\x12\x13\x14\x15*'
>>> calcsize('ci')
8
>>> calcsize('ic')
5

以下格式 'llh0l' 指定在末尾有兩個(gè)填充字節,假定 long 類(lèi)型按 4 個(gè)字節的邊界對齊:

>>>
>>> pack('llh0l', 1, 2, 3)
b'\x00\x00\x00\x01\x00\x00\x00\x02\x00\x03\x00\x00'

這僅當本機大小和對齊方式生效時(shí)才會(huì )起作用;標準大小和對齊方式并不會(huì )強制進(jìn)行任何對齊。

參見(jiàn)

模塊 array

被打包為二進(jìn)制存儲的同質(zhì)數據。

模塊 xdrlib

打包和解包 XDR 數據。

類(lèi)?

struct 模塊還定義了以下類(lèi)型:

class struct.Struct(format)?

返回一個(gè)新的 Struct 對象,它會(huì )根據格式字符串 format 來(lái)寫(xiě)入和讀取二進(jìn)制數據。 一次性地創(chuàng )建 Struct 對象并調用其方法相比使用同樣的格式調用 struct 函數更為高效,因為這樣格式字符串只需被編譯一次。

備注

傳遞給 Struct 和模塊層級函數的已編譯版最新格式字符串會(huì )被緩存,因此只使用少量格式字符串的程序無(wú)需擔心重用單獨的 Struct 實(shí)例。

已編譯的 Struct 對象支持以下方法和屬性:

pack(v1, v2, ...)?

等價(jià)于 pack() 函數,使用了已編譯的格式。 (len(result) 將等于 size。)

pack_into(buffer, offset, v1, v2, ...)?

等價(jià)于 pack_into() 函數,使用了已編譯的格式。

unpack(buffer)?

等價(jià)于 unpack() 函數,使用了已編譯的格式。 緩沖區的字節大小必須等于 size。

unpack_from(buffer, offset=0)?

等價(jià)于 unpack_from() 函數,使用了已編譯的格式。 緩沖區的字節大小從位置 offset 開(kāi)始必須至少為 size。

iter_unpack(buffer)?

等價(jià)于 iter_unpack() 函數,使用了已編譯的格式。 緩沖區的大小必須為 size 的整數倍。

3.4 新版功能.

format?

用于構造此 Struct 對象的格式字符串。

在 3.7 版更改: 格式字符串類(lèi)型現在是 str 而不再是 bytes。

size?

計算出對應于 format 的結構大?。ㄒ嗉?pack() 方法所產(chǎn)生的字節串對象的大?。?。