👹
Carlos's Tech Blog
  • 🧔ECUs
    • ZYNQ_Documents
      • [ZYNQ] 构建ZYNQ的BSP工程
      • [ZYNQ] 启动流程
      • [ZYNQ] Secure Boot Flow
      • [ZYNQ] Provisioning Guideline
      • [ZYNQ] Decrypting Partition by the Decrypt Agent Using PUF key
      • [ZYNQ] enabling the cryptsetup on ramdisk
      • [ZYNQ] Encrypt external files based on file system using PUF key
      • [ZYNQ] Loading an Encrypted Linux kernel at U-Boot with a KUP Key
      • [ZYNQ] cross-compile the cryptsetup on Xilinx ZYNQ aarch64 platform
      • [ZYNQ] Linux Linaro系统镜像制作SD卡启动
    • S32G_Documents
      • [S32G] Going through the s32g hard/soft platform
      • [S32G] S32g247's Secure Boot using HSE firmware
        • S32g2 HSE key config
        • How S32g verify secure boot image
        • S32g secure boot signature generation
        • How to download and build S32g Secure boot image
        • [S32G] OTA with Secure Boot
    • RT117x_Documents
      • [RT-117x]IMX RT1170 Provisioning Guideline
      • [RT-117x] Going through the MX-RT1170 hard/soft platform
      • [RT-117x] i.MX-RT1170's Secure Boot
        • [RT-117x]Signing image with the HSM (SignServer)
    • LS104x_Documents
      • [LS104x] bsp project
      • [LS104x] boot flow
      • [LS104x] secure boot
      • [LS104x] Application Note, Using the PKCS#11 in TCU platform
      • [LS104x] 使用ostree更新rootfs
      • [LS104x] ostree的移植
      • [LS104x] Starting with Yocto
      • [LS104x] 使用FIT的kernel格式和initramfs
    • IMX6/8_Documents
      • [IMX6] Defining A U-Boot Command
      • NXP IMX6 嵌入式板子一些笔记
      • NXP-imx6 initialization
    • Vehicle_Apps
      • [SecOC] Tree
        • [SecOC] SecOC Freshness and MAC Truncation
  • 😾TECH
    • Rust Arm OS
      • ARMv7m_Using_The_RUST_Cross_Compiler
    • ARM
      • ARM-v7-M
        • 01_ARMv7-M_处理器架构技术综述
        • 02_ARMv7-M_编程模型与模式
        • 03_ARMv7-M_存储系统结构
        • 04_ARMv7-M_异常处理及中断处理
      • ARM-v8-A
        • 02_ARMv8_基本概念
        • 03_ARMv8_指令集介绍_加载指令集和存储指令集
        • 04_ARMv8_指令集_运算指令集
        • 05_ARMv8_指令集_跳转_比较与返回指令
        • 06_ARMv8_指令集_一些重要的指令
        • 0X_ARMv8_指令集_基于汇编的UART驱动
        • 07_ARMv8_汇编器Using as
        • 08_ARMv8_链接器和链接脚本
        • 09_ARMv8_内嵌汇编(内联汇编)Inline assembly
        • 10_ARMv8_异常处理(一) - 入口与返回、栈选择、异常向量表
        • 11_ARMv8_异常处理(二)- Legacy 中断处理
        • 12_ARMv8_异常处理(三)- GICv1/v2中断处理
        • 13_ARMv8_内存管理(一)-内存管理要素
        • 14_ARMv8_内存管理(二)-ARM的MMU设计
        • 15_ARMv8_内存管理(三)-MMU恒等映射及Linux实现
        • 16_ARMv8_高速缓存(一)cache要素
        • 17_ARMv8_高速缓存(二)ARM cache设计
        • 18_ARMv8_高速缓存(三)多核与一致性要素
        • 19_ARMv8_TLB管理(Translation Lookaside buffer)
        • 20_ARMv8_barrier(一)流水线和一致性模型
        • 21_ARMv8_barrier(二)内存屏障案例
      • ARM Boot Flow
        • 01_Embedded_ARMv7/v8 non-secure Boot Flow
        • 02_Embedded_ARMv8 ATF Secure Boot Flow (BL1/BL2/BL31)
        • 03_Embedded_ARMv8 BL33 Uboot Booting Flow
      • ARM Compiler
        • Compiler optimization and the volatile keyword
      • ARM Development
        • 在MACBOOK上搭建ARMv8架构的ARM开发环境
        • Starting with JLink debugger or QEMU
    • Linux
      • Kernel
        • 0x01_LinuxKernel_内核的启动(一)之启动前准备
        • 0x02_LinuxKernel_内核的启动(二)SMP多核处理器启动过程分析
        • 0x21_LinuxKernel_内核活动(一)之系统调用
        • 0x22_LinuxKernel_内核活动(二)中断体系结构(中断上文)
        • 0x23_LinuxKernel_内核活动(三)中断体系结构(中断下文)
        • 0x24_LinuxKernel_进程(一)进程的管理(生命周期、进程表示)
        • 0x25_LinuxKernel_进程(二)进程的调度器的实现
        • 0x26_LinuxKernel_设备驱动(一)综述与文件系统关联
        • 0x27_LinuxKernel_设备驱动(二)字符设备操作
        • 0x28_LinuxKernel_设备驱动(三)块设备操作
        • 0x29_LinuxKernel_设备驱动(四)资源与总线系统
        • 0x30_LinuxKernel_设备驱动(五)模块
        • 0x31_LinuxKernel_内存管理(一)物理页面、伙伴系统和slab分配器
        • 0x32_LinuxKernel_内存管理(二)虚拟内存管理、缺页与调试工具
        • 0x33_LinuxKernel_同步管理_原子操作_内存屏障_锁机制等
        • 01_LinuxDebug_调试理论和基础综述
      • Userspace
        • Linux-用户空间-多线程与同步
        • Linux进程之间的通信-管道(上)
        • Linux进程之间的通信-管道(下)
        • Linux进程之间的通信-信号量(System V)
        • Linux进程之间的通信-内存共享(System V)
        • Linux进程之间的通信-消息队列(System V)
        • Linux应用调试(一)方法、技巧和工具 - 综述
        • Linux应用调试(二)工具之coredump
        • Linux应用调试(三)工具之Valgrind
        • Linux机制之内存池
        • Linux机制之对象管理和引用计数(kobject/ktype/kset)
        • Linux机制copy_{to, from}_user
        • Linux设备树 - DTS语法、节点、设备树解析等
        • Linux System : Managing Linux Services - inittab & init.d
        • Linux System : Managing Linux Services - initramfs
      • Kernel Examples
        • Linux Driver - GPIO键盘驱动开发记录_OMAPL138
        • 基于OMAPL138的Linux字符驱动_GPIO驱动AD9833(一)之miscdevice和ioctl
        • 基于OMAPL138的Linux字符驱动_GPIO驱动AD9833(二)之cdev与read、write
        • 基于OMAPL138的字符驱动_GPIO驱动AD9833(三)之中断申请IRQ
        • Linux内核调用SPI驱动_实现OLED显示功能
        • Linux内核调用I2C驱动_驱动嵌套驱动方法MPU6050
    • OPTEE
      • 01_OPTEE-OS_基础之(一)功能综述、简要介绍
      • 02_OPTEE-OS_基础之(二)TrustZone和ATF功能综述、简要介绍
      • 03_OPTEE-OS_系统集成之(一)编译、实例、在QEMU上执行
      • 05_OPTEE-OS_系统集成之(三)ATF启动过程
      • 06_OPTEE-OS_系统集成之(四)OPTEE镜像启动过程
      • 07_OPTEE-OS_系统集成之(五)REE侧上层软件
      • 08_OPTEE-OS_系统集成之(六)TEE的驱动
      • 09_OPTEE-OS_内核之(一)ARM核安全态和非安全态的切换
      • 10_OPTEE-OS_内核之(二)对安全监控模式的调用的处理
      • 11_OPTEE-OS_内核之(三)中断与异常的处理
      • 12_OPTEE-OS_内核之(四)对TA请求的处理
      • 13_OPTEE-OS_内核之(五)内存和cache管理
      • 14_OPTEE-OS_内核之(六)线程管理与并发
      • 15_OPTEE-OS_内核之(七)系统调用及IPC机制
      • 16_OPTEE-OS_应用之(一)TA镜像的签名和加载
      • 17_OPTEE-OS_应用之(二)密码学算法和安全存储
      • 18_OPTEE-OS_应用之(三)可信应用的开发
      • 19_OPTEE-OS_应用之(四)安全驱动开发
      • 20_OPTEE-OS_应用之(五)终端密钥在线下发系统
    • Binary
      • 01_ELF文件_目标文件格式
      • 02_ELF文件结构_浅析内部文件结构
      • 03_ELF文件_静态链接
      • 04_ELF文件_加载进程虚拟地址空间
      • 05_ELF文件_动态链接
      • 06_Linux的动态共享库
      • 07_ELF文件_堆和栈调用惯例以ARMv8为例
      • 08_ELF文件_运行库(入口、库、多线程)
      • 09_ELF文件_基于ARMv7的Linux系统调用原理
      • 10_ELF文件_ARM的镜像文件(.bin/.hex/.s19)
    • Build
      • 01_Script_makefile_summary
    • Rust
      • 02_SYS_RUST_文件IO
    • Security
      • Crypto
        • 1.0_Security_计算机安全概述及安全需求
        • 2.0_Security_随机数(伪随机数)
        • 3.0_Security_对称密钥算法加解密
        • 3.1_Security_对称密钥算法之AES
        • 3.2_Security_对称密钥算法之MAC(CMAC/HMAC)
        • 3.3_Security_对称密钥算法之AEAD
        • 8.0_Security_pkcs7(CMS)_embedded
        • 9.0_Security_pkcs11(HSM)_embedded
      • Tools
        • Openssl EVP to implement RSA and SM2 en/dec sign/verify
        • 基于Mac Silicon M1 的OpenSSL 编译
        • How to compile mbedtls library on Linux/Mac/Windows
    • Embedded
      • eMMC启动介质
  • 😃Design
    • Secure Boot
      • JY Secure Boot Desgin
    • FOTA
      • [FOTA] Module of ECUs' FOTA unit design
        • [FOTA] Tech key point: OSTree Deployment
        • [FOTA] Tech key point: repositories role for onboard
        • [FOTA] Tech key point: metadata management
        • [FOTA] Tech key point: ECU verifying and Decrpting
        • [FOTA] Tech key point: time server
      • [FOTA] Local-OTA for Embedded Linux System
    • Provisioning
      • [X-Shield] Module of the Embedded Boards initialization
    • Report
由 GitBook 提供支持
在本页
  • 21_ARMv8_barrier(二)内存屏障案例
  • 1. 消息传递问题
  • 2. 单方向内存屏障和自旋锁
  • 2.1 获取一个自旋锁
  • 2.2 释放一个自旋锁
  • 2.3 使用WFE和SEV指令优化自旋锁
  • 2.4 邮箱传递消息
  • 2.5 单核和多核发送消息
  • 2.6 无效DMA缓冲区
  1. TECH
  2. ARM
  3. ARM-v8-A

21_ARMv8_barrier(二)内存屏障案例

https://github.com/carloscn/blog/issues/63

21_ARMv8_barrier(二)内存屏障案例

本节通过具体的案例对使用barrier的场景进行分析,这里一共是12个场景。

  1. 消息传递问题

  2. 单方向内存屏障和自旋锁

  3. 多核异构的通信机制MailBox传递消息

  4. 单核/多核系统发送消息(d-cache相关)

  5. 无效DMA缓冲(d-cache相关)

  6. 单核/多核处理器修改代码(i-cache相关)

  7. 单核/多核处理器系统更新页表(TLB相关)

  8. BBM机制更新页表(TLB相关)

  9. DMA案例

  10. 存储缓冲区和写内存屏障指令

  11. 无效队列与读内存屏障指令

  12. Linux内核中的内存屏障指令

1. 消息传递问题

需要对场景进行假设,如图所示,p0~pn是高速缓冲一致性观察范围内的CPU,而e0-e1是没有cache一致性观察范围内的CPU。

【例1】在弱一致性内存模型下,CPU1和CPU2通过传递以下代码片段来传递消息。

//CPU1
	str x5, [x1]
	str x0, [x2]
//CPU2
	WAIT([x2]==1)
	ldr x5, [x1]

这个原始的目的是,CPU把x5的值存储到x1内的地址中,接着x2寄存器为标志位寄存器用于CPU2的判定,如果判定完毕,会把数据从x1寄存器内的地址存入x5。这是正常的思维,但是CPU执行的时候因为x1和x2和x5之间没有依赖,因此可能发生乱序执行:先标志位置位后再修改x5的值,那么就会发生错误。

解决方案一:通过带有内存屏障的stlr来代替str,使之具备序的要求。

//CPU1
	str x5, [x1]
	stlr x0, [x2]   // use stlr
//CPU2
	WAIT([x2]==1)
	ldr x5, [x1]

解决方案二:在CPU中塑造寄存器依赖来有序的要求。

//CPU1
	str x5, [x1]
	stlr x0, [x2]   // use stlr
//CPU2
	WAIT([x2]==1)
	and w12, w12, wzr
	ldr x5, [x1,w12]   // w12产生依赖

2. 单方向内存屏障和自旋锁

ARMv8指令集把加载-获取和存储-释放内存屏障原语集成到了独占内存访问指令中。根据结合的情况,分成下面4种情况:

  • 没有集成屏障功能的LDXR和STXR指令。note,ARM64的指令的写法是LDXR和STXR,ARM32的指令写法是LDREX和STREX。

  • 仅仅集成了加载-获取内存功能的是:LDAXR STXR

  • 仅仅集成了存储-释放内存功能的是:LDXR STLXR

  • both加载-获取和存储-释放的内存屏障原语是:LDAXR STLXR指令。

在使用原子加载存储指令时可以通过清除全局监视器来出发一个事件,从而唤醒因为WFE指令而睡眠的CPU没这样不需要DSB和SEV指令。通常会在**自旋锁(spin lock)**的实现中用到。

2.1 获取一个自旋锁

自旋锁的实现原理非常简单。当lock为0的时候,表示锁是空闲的;当lock为1的时候,表示锁已经被CPU持有了。

【例2】下面一段代码获取自旋锁的伪代码,其中X1寄存器存放自旋锁,W0寄存器的值为1

prfm pst11keep, [x1] // PRFM是预取指令,把lock先预取到cache里面,起到加速的作用
loop
	ldaxr w5, [x1]  // 使用内置的加载-获取独占访问读取lock的值
	cbnz w5, loop // 判断锁是不是为0
	stxr w5, w0, [x1] // 使用stxr指令把w0写入lock,这样就获取了锁
	cbnz w5, loop
	// 成功获取自旋锁

这里只使用了内置加载-存储内存屏障指令的独占访问指令就够了,主要用于防止在临界区内的加载存储指令被乱序重排。

2.2 释放一个自旋锁

释放一个自旋锁不需要使用独占的存储指令,因为通常只有锁的持有者会修改和更新这个锁。不过,为了让其他的观察者能看到这个锁的变化,还需要使用存储-释放内存屏障原语。

【例3】释放锁的伪代码

// ↑ 锁的临界区读写操作
stlr wzr, [x1] // 清除锁

释放锁只需要使用STLR指令向lock里面写0即可。STLR指令内置了存储-释放内存屏障原语,组织锁的临界区里加载存储指令越出临界区。

2.3 使用WFE和SEV指令优化自旋锁

ARMv8体系结构对自旋锁有个特殊的优化,使用WFE(Wait For Event)机制降低在自旋锁等待锁耗时的功耗,它会让CPU进入低功耗模式,直到有一个异步异常或者特定的时间才会被环形。这个时间可以通过清除全局独占监视器的方式来出发和唤醒。

【例4】使用WFE和SEV指令优化自旋锁的代码

sevl // sevl指令是sev指令的本地版,它会向CPU发送一个唤醒事件。通常以一个WFE指令开始的循环里使用。
prfm pst11keep, [x1] // PRFM是预取指令,把lock先预取到cache里面,起到加速的作用
loop
	wfe
	ldaxr w5, [x1]  // 使用内置的加载-获取独占访问读取lock的值
	cbnz w5, loop // 判断锁是不是为0
	stxr w5, w0, [x1] // 使用stxr指令把w0写入lock,这样就获取了锁
	cbnz w5, loop
	// 成功获取自旋锁

【例5】释放锁的伪代码

// ↑ 锁的临界区读写操作
stlr wzr, [x1] // 清除锁

使用STLR指令来释放锁并且让处理器的独占监视器监视测到锁的临界区的变化,即处理器的全局监视器检测到内存区域从独占访问状态编程开放访问状态,从而触发了一个WFE事件,来唤醒等待这个自旋锁的CPU。

2.4 邮箱传递消息

多核之间可以通过邮箱机制来共享数据。下面举个例子两个CPU通过邮箱机制来共享数据,其中全局变量SHARE_DATA表示共享数据,FLAGS表示标志位。

// CPU0
ldr x1, =SHARE_DATA
ldr x2, =FLAG

str x6, [x1] // write data to x6
dmb ishst // flush
str xzr, [x2] // update flag is 0.

//----------------------------------------------------
// CPU1
ldr x1, =SHARE_DATA
ldr x2, =FLAG

loop:       // wait CPU0 for updating flag.
    ldr x7, [x2]
    cbnz x7, loop

dmb ishld
ldr x8, [x1] // read sharing data

在本例子中,CPU0和CPU1均使用了DMB指令。在CPU0侧,DMB指令是为了保证这两次存储操作执行顺序的。如果先执行了更新FLAG,那么CPU1可能接收到错误的数据。在CPU1侧,等待FLAG和读共享数据之间插入DMB指令,是为了保证读到FLAG之后才去读共享数据,要不然就读到了错误的共享数据。注意两条DMB指令是带参数的。在CPU0侧使用ishst,ish表示内部共享域,st表示内存屏障指令访问次序为存储-存储操作。CPU1使用isbld,ld表示内存屏障访问次序为加载-加载操作。

2.5 单核和多核发送消息

在单核系统中CPU发送消息给非一致性观察者,非一致性观察者可以是系统中的其他处理器,例如系统中存在Cortex-M处理器。

CPU0:
	str w5, [x1] //str指令更新X1的地址的值
	dc cvac, x1 // dc指令用来清理x1地址对应的数据告诉缓冲。dc指令的参数为cvac
	dmb ish 保证后面str指令执行之前看到dc指令执行完毕
	str w0, [x4] // 设置x4寄存器用于通知其他处理器
	
E0:
	WAIT_ACQ ([x4] == 1)
	ldr w5, [x1]

在非高速缓冲一致性的E0处理器里面,可以从X1中读出信息。cache指令维护,是通过指令直接维护地址,这样就完成cache和内存之间的交互。

在多核系统中,数据高速缓冲维护指令会广播到其他的CPU上面,通常高速缓冲维护指令需要和内存屏障指令混合使用。假设CPU0和CPU1以及E0三个CPU直接共享数据和发送消息。CPU0先把数据写入内存中,然后发送一个消息给CPU1。CPU1等待消息,然后再发消息,通知E0处理器来读取数据:

CPU0:
	str w5, [x1] // str指令更新X1的地址的值
	stlr w0, [x2]
    
CPU1:
	WAIT_ACQ ([x2] == 1)
	dmb sy // 保证正确读取x2之后才允许进行cache clean操作
	dc cavc, x1 // 使用PoC的方式来清理cache系统所有的CPU以及缓存都被清理掉。
	dmb sy
	str w0, [x4]
	
E0:
	WAIT_ACQ ([x4] == 1)
	ldr w5, [x1]

2.6 无效DMA缓冲区

与外部观察者共享数据的时候,我们需要考虑数据可能随时被缓冲到cache里面,例如把数据写入一个使能了cache内存区域的场景。CPU0准备了了一个DMA缓冲区,并且对应的cache都失效,然后发送一条消息给E0处理器。E0收到消息之后往这个DMA缓冲区里写数据。写完之后再发送一个条消息给CPU0。CPU0收到消息之后把DMA缓冲区的内容读出来。对应的伪代码如下:

CPU0:
	dc ivac, x1 // 使DMA缓冲区对应的cache失效
	dmb sy // 等待真正的失效
	str w0, [x3] // 向E0发送消息
	WAIT_ACQ ([x4] == 1) // 等待E0
	ldr w5, [x1] // 循环等待E0设置标志位

E0:
	WAIT ([x3] == 1) // 等待CPU0发送的消息
	str w5, [x1] // 向DMA中写入数据
	stlr w0, [x4] // 设置X4寄存器,相当于向CPU0发送消息

在linux内核里面使i-cahce失效的函数是flush_icache_range()

<linux5.0/arch/arm64/include/asm/cacheflush.h>

static inline void flush_icache_range(unsigned long start, unsigned long end)
{
	__flush_ichache_range(start, end);
	smp_mb();
	smp_call_function(do_nothing, NULL, 1);
}
上一页20_ARMv8_barrier(一)流水线和一致性模型下一页ARM Boot Flow

最后更新于1年前

😾