钞sir 发表于 2019-4-6 21:30:03

PE文件结构介绍

三千风雨三千雪 三千风雪我在写
流了一共三千血 你却始终不了解
<!--more-->

---
简介
---
PE文件使用的是一个平面地址空间,所有的代码和数据都合并在一起,组成了一个很大的结构;
文件被分为不同的区块(Section,又成为区段或节等),区块中包含代码和数据,各个区块按页边界对齐;
区块没有大小限制,是一个连续结构;每一个块都有其自己的属性,如是否包含代码,是否可读可写等;

---
PE文件的构成
---
# MS-DOS头部
每个PE文件都是以一个DOS程序开始的,其作用是一旦程序在DOS下执行,DOS就可以识别出这是一个有效的执行体,然后运行紧随的MZ header的DOS stub,即DOS块;
PE文件第一个字节就是MS-DOS头部,称为IMAGE_DOS_HEADER,其结构是这样的:
```cpp
typedef struct _IMAGE_DOS_HEADER
{
+00hWORD e_magic      // DOS可执行文件标记"MZ"
+02hWORD e_cblp         // 文件最后页的字节数
+04hWORD e_cp         // 文件页数
+06hWORD e_crlc         // 重定义元素个数
+08hWORD e_cparhdr      // 头部尺寸,以段落为单位
+0ahWORD e_minalloc   // 所需的最小附加段
+0chWORD e_maxalloc   // 所需的最大附加段
+0ehWORD e_ss         // 初始的SS值(相对偏移量)
+10hWORD e_sp         // 初始的SP值
+12hWORD e_csum         // 校验和
+14hWORD e_ip         // 初始的IP值,DOS代码入口ip
+16hWORD e_cs         // 初始的CS值,DOS代码入口cs
+18hWORD e_lfarlc       // 重分配表文件地址
+1ahWORD e_ovno         // 覆盖号
+1chWORD e_res       // 保留字
+24hWORD e_oemid      // OEM标识符(相对e_oeminfo)
+26hWORD e_oeminfo      // OEM信息
+28hWORD e_res2   // 保留字
+3chLONG e_lfanew         // 指向PE文件头"PE",0,0
}
```
其中最为重要的是e_magic和e_lfanew;
e_magic的值为5A4Dh,e_lfanew的值则是指出PE头的文件偏移位置,占用4个字节;
!(https://cc-sir.github.io/photos/PE1.png)

# PE文件头
在D0Sstub之后紧跟的就是PE文件头,"PE Header"是PE相关结构NT映射头(IMAGE_NT_HEADERS)的简称,其中包含许多PE装载器可以用到的主要字段;
PE文件头的指针:
```cpp
PNTHeader = ImageBase + dosHeader->e_lfanew
```
IMAGE_NT_HEADERS是由3个字段组成的结构:
```cpp
IMAGE_NT_HEADERS STURST
+00h    Signature         DWORD ;PE文件标识
+04h    FileHeader          IMAGE_FILE_HEADER
+18h    OptionalHeader      IMAGE_OPTIONAL_HEADER32
IMAGE_NT_HEADERS ENDS
```
字段前数字表示到PE文件头的偏移量,Signature字段被设置为0x00004550,即ASCII的"PE00";
## IMAGE_FILE_HEADER
其中IMAGE_FILE_HEADER又是一个结构,其结构如下:
```cpp
IMAGE_FILE_HEADER STRUCT
+00h    Machine                WORD    ;运行平台
+06h    NumberOfSections       WORD    ;文件区块数
+08h    TimeDateStamp          DWORD   ;文件创建时间
+0Ch    PointerToSymbolTable   DWORD
+10h    NumberOfSymbols      DWORD
+14h    SizeOfOptionalHeader   WORD    ;IMAGE_OPTIONAL_HEADER32结构的大小
+16h    Characteristics      WORD    ;文件属性
IMAGE_FILE_HEADER ENDS
```
其中字段依次如下图:
!(https://cc-sir.github.io/photos/PE2.png)
## IMAGE_OPTIONAL_HEADER32
IMAGE_OPTIONAL_HEADER32也是一个结构而且比较大,但是这个结构只是一个可选结构,其不足以定义PE文件属性,所以里面包含的字段也比较多;
其结构如下,字段前数字仍然是到PE文件头的偏移量:
```cpp
IMAGE_OPTIONAL_HEADER32 STRUCT
+18H    Magic                           WORD
+1Ah    MajorLinkerVersion            BYTE
+1Bh    MinorLinkerVersion            BYTE
+1Ch    SizeOfCode                      DWORD
+20h    SizeOfInitializedData         DWORD
+24h    SizeOfUninitializedData         DWORD
+28h    AddressOfEntryPoint             DWORD
+2Ch    BaseOfCode                      DWORD   ;代码区块起始RVA
+30h    BaseOfData                      DWORD   ;数据区块起始RVA
+34h    ImageBase                     DWORD   ;程序默认载入基址
+38h    SectionAlignment                DWORD   ;内存中区块对齐值
+3Ch    FileAlignment                   DWORD   ;文件中区块对齐值
+40h    MajorOperatingSystemVersion   WORD
+42h    MinorOperatingSystemVersion   WORD
+44h    MajorImageVersion               WORD
+46h    MinorImageVersion               WORD
+48h    MajorSubsystemVersion         WORD
+4Ah    MinorSubsystemVersion         WORD
+4Ch    Win32versionValue               DWORD
+50h    SizeOfImage                     DWORD
+54h    SizeOfHeaders                   DWORD
+58h    CheckSum                        DWORD
+5Ch    Subsystem                     WORD
+5Eh    DllCharacteristics            WORD
+60h    SizeOfStackReserve            DWORD
+64h    SizeOfStackCommit               DWORD
+68h    SizeOfHeapReserve               DWORD
+6Ch    SizeOfHeapCommit                DWORD
+70h    LoaderFlags                     DWORD
+74h    NumberOfRvaAndSizes             DWORD
+78h    DataDirectory    IMAGE_DATA_DIRECTORY 16 DUP ;数据目录表
IMAGE_OPTIONAL_HEADER32 ENDS
```
其中比较重要的就是数据目录表IMAGE_DATA_DIRECTORY,其结构如下:
```cpp
IMAGE_DATA_DIRECTORY    STRUCT
VirtualAddressDWORD   ;数据块的起始RVA
Size            DWORD   ;数据块长度
IMAGE_DATA_DIRECTORY ENDS
```
数据目录表中总共有16个成员:
!(https://cc-sir.github.io/photos/PE3.png)
PE文件在定位输出表,输入表和资源等重要的数据时,就是从IMAGE_DATA_DIRECTORY结构开始的
如图:
!(https://cc-sir.github.io/photos/PE4.png)
158h位置是数据目录表的第一项,值为0,所以这个程序的输出表地址和大小都为0,即这个程序没有输出表;160h位置是数据表的第二项,表示输入表的RVA为2A000h,大小为3ch;

## 区块表
紧跟IMAGE_NT_HEADERS 的就是区块表,它是一个IMAGE_SECTION_HEADER数据数组;每个数组包含了所关联的区块的信息,比如位置、长度、属性等;
IMAGE_SECTION_HEADER结构定义如下:
```cpp
IAMGE_SECTION_HEADER STURCT
Name                  BYTE8 DUP   ;8字节的块名
union Misc
PhysicalAddress       DWORD      
VirtualSize         DWORD
ENDS
VistualAddress          DWORD       ;区块的RVA地址
SizeOfRawData         DWORD       ;在文件中对齐后的尺寸
PointerToRelocations    DWORD       ;在文件中的偏移
PointerToLinenumbers    DWORD      
NumberOfRelocations   WORD
NumberOfLinenumbers   WORD
Characteristics         DWORD       ;区块的属性
IMAGE_SECTION_HEADER ENDS
```
IAMGE_SECTION_HEADER 中的字段依次对应如下图:
!(https://cc-sir.github.io/photos/PE5.png)
每个IMAGE_SECTION_HEADER的大小是40字节,区块的个数通过IMAGE_FILE_HEADER->NumberOfSections 来确定
其中比较重要的是VistualAddress 和 PointerToRelocations,上面图中显示的.text段的VistualAddress地址,即RVA为1000h,PointerToRelocations的值也是1000h,即在文件中的偏移为1000h;
而这两个数相减就是△k,即
```cpp
File_Offset = RVA - △k;
```
File_Offsetd的值就是PointerToRelocations的值,在上图中.text区块的△k = RVA - File_Offset = 1000h - 1000h = 0h;
需要注意的:不是在整个文件中△k都不变的,因为页边界的不一样,不同区块在磁盘中与内存中的差值不同,即△k不同;
如果我们设初始内存的地址,即基地址为ImageBase,内存中实际地址为VA,则有:
```cpp
File_Offset = VA - ImageBase - △k;
```
这里给一张图作参考:
![应用程序加载映射示意图](https://cc-sir.github.io/photos/PE6.png)

## 输入表
输入表以一个IMAGE_IMPORT_DESCRIPTOR(IID)数组开始,每个被PE文件隐式链接的DLL有一个IID;
IMAGE_IMPORT_DESCRIPTOR结构如下:
```cpp
IMAGE_IMPORT_DESCRIPTOR STRUCT
union                              ;00h
    Charateristics          DWORD    ;
    OriginalFirstThunk      DWORD    ;包含指向输入表名称表(INT)的RVA
ends
TimeDataStamp               DWORD
ForwarderChain            DWORD
Name                        DWORD    ;DLL的名称指针,也是一个RVA
FirstThunk                  DWORD    ;包含指向输入表(IAT)的RVA
IMAGE_IMPORT_DESCRIPTOR ENDS
```
寻找输入表的基本方法:PE文件头偏移80h的位置找到指向输入表的地址,假设是Addr,不过这个地址是RVA,需要用这个值减去△k,才是输入表的在文件中的偏移地址,需要注意的是找△k时,要先确定Addr在哪个区块中,然后再用该区块的RVA减去该区块的PointerToRawData才是△k;至于区块的RVA和PointerToRawData就在IAMGE_SECTION_HEADER结构中看了;
至于找到输入表后,找输入表中的字段时,就可以直接用字段指向的RVA减去上面计算出的△k,然后得到文件偏移地址了;
PE文件加载后的IAT:
![应用程序加载映射示意图](https://cc-sir.github.io/photos/PE7.png)

## 输出表
输出表一般不存在于EXE文件中,大部分在DLL文件中的;当一个DLL函数被EXE或另外一个DLL文件使用时,它就被"输出了"(Exported),其中输出信息被保存在输出表中,DLL文件通过输出表向系统提供输出函数名、序号、入口地址等信息;
输出表是数据目录表中的第一个成员,指向IMAGE_EXPORT_DIRECTORY结构,简称IED;
IED结构如下:
```cpp

IMAGE_EXPORT_DIRECTORY STRUCT
    DWORD   Characteristics         ;//未使用,总是定义为0
    DWORD   TimeDateStamp         ;//文件生成时间
    WORD    MajorVersion            ;//未使用,总是定义为0
    WORD    MinorVersion            ;//未使用,总是定义为0
    DWORD   Name                  ;//模块的真实名称的RVA
    DWORD   Base                  ;//基数,加上序数就是函数地址数组的索引值
    DWORD   NumberOfFunctions       ;//导出函数的总数
    DWORD   NumberOfNames         ;//输出函数名称表(ENT)里的条目总数
    DWORD   AddressOfFunctions      ;// RVA from base of image指向输出函数地址的RVA
    DWORD   AddressOfNames          ;// RVA from base of image指向输出函数名字的RVA
    DWORD   AddressOfNameOrdinals   ;// RVA from base of image向输出函数序号的RVA
IMAGE_EXPORT_DIRECTORY ENDS
```
输出表的查询和输入表查询的方法是一样的;
下图是一个输出表的格式及其中的3个阵列:
![一个典型的输出表](https://cc-sir.github.io/photos/PE8.png)

## 资源
Windows程序的各种界面称为资源,包括加速键、位图、光标、对话框、图标等,在PE文件的所有结构中,资源部分是最为复杂的;
资源用类似于磁盘目录结构的方式来保存,目录通常包含3层;
第1层目录类似一个文件系统的根目录,每个根目录下的条目总是它自己权限下的一个目录;第2层目录中的每一个都对应于一个资源类型(字符串表、菜单、对话框等);第2层资源类型目录下是第3层目录;
目录结构如图:
![资源的树形结构](https://cc-sir.github.io/photos/PE9.png)

资源表位于数据目录表的第3项,共动态分配字节,其中结构体中的成员指出的RVA偏移量都是对于此结构体的地址作为基地址;
IMAGE_RESOURCE_DIRECTORY结构长度为16字节,共6个字段,定义如下:
```cpp
IMAGE_RESOURCE_DIRECTORY STRUCT
{
+00h    DWORD   Characteristics   ; 理论上为资源的属性,不过事实上总是0
+04h    DWORD   TimeDateStamp       ; 资源的产生时刻
+08h    WORD    MajorVersion         ; 理论上为资源的版本,不过事实上总是0
+0Ah    WORD    MinorVersion
+0Ch    WORD    NumberOfNamedEntries ; 以名称(字符串)命名的入口数量(重要)
+0Eh    WORD    NumberOfIdEntries    ; 以ID(整型数字)命名的入口数量(重要)
}IMAGE_RESOURCE_DIRECTORY ENDS
```

资源目录入口结构:
```cpp
IMAGE_RESOURCE_DIRECTORY_ENTRY STRUCT
{
+10h   DWORD    Name            ; 目录项的名称字符串指针或ID,高位为1时指向子结构体一
+14h   DWORD    OffsetToData    ; 目录项指针,高位为1时指向子结构体二
};IMAGE_RESOURCE_DIRECTORY_ENTRY ENDS
```
资源数据入口:
```cpp
IMAGE_RESOURCE_DATA_ENTRY STRUCT
{
+00h    DWORD   OffsetToData    ; 资源数据的RVA(重要)
+04h    DWORD   Size            ; 资源数据的长度(重要)
+08h    DWORD   CodePage      ; 代码页, 一般为0
+0Ch    DWORD   Reserved      ; 保留字段
};IMAGE_RESOURCE_DATA_ENTRY ENDS
```

---
总结
---
PE结构大部分结构是这些,当然还有一些结构没有指出,如果要深入了解PE结构,那么最好的方法就是编写一个PEload工具,在编写的过程中,会更深入的理解PE结构;
最后在一个放一个PE文件结构全局图,基本包含了PE结构中的所有结构:
!(https://cc-sir.github.io/photos/PE.jpg)

roger 发表于 2019-4-6 22:36:31

{:6_169:}

wo62260620 发表于 2019-11-21 08:53:19

看下PE结构,重要具体讲解。
页: [1]
查看完整版本: PE文件结构介绍