/* * Bit sliced AES using NEON instructions * * Copyright (C) 2017 Linaro Ltd. * Author: Ard Biesheuvel * * This program is free software; you can redistribute it and/or modify * it under the terms of the GNU General Public License version 2 as * published by the Free Software Foundation. */ /* * The algorithm implemented here is described in detail by the paper * 'Faster and Timing-Attack Resistant AES-GCM' by Emilia Kaesper and * Peter Schwabe (https://eprint.iacr.org/2009/129.pdf) * * This implementation is based primarily on the OpenSSL implementation * for 32-bit ARM written by Andy Polyakov */ #include #include .text .fpu neon rounds .req ip bskey .req r4 q0l .req d0 q0h .req d1 q1l .req d2 q1h .req d3 q2l .req d4 q2h .req d5 q3l .req d6 q3h .req d7 q4l .req d8 q4h .req d9 q5l .req d10 q5h .req d11 q6l .req d12 q6h .req d13 q7l .req d14 q7h .req d15 q8l .req d16 q8h .req d17 q9l .req d18 q9h .req d19 q10l .req d20 q10h .req d21 q11l .req d22 q11h .req d23 q12l .req d24 q12h .req d25 q13l .req d26 q13h .req d27 q14l .req d28 q14h .req d29 q15l .req d30 q15h .req d31 .macro __tbl, out, tbl, in, tmp .ifc \out, \tbl .ifb \tmp .error __tbl needs temp register if out == tbl .endif vmov \tmp, \out .endif vtbl.8 \out\()l, {\tbl}, \in\()l .ifc \out, \tbl vtbl.8 \out\()h, {\tmp}, \in\()h .else vtbl.8 \out\()h, {\tbl}, \in\()h .endif .endm .macro __ldr, out, sym vldr \out\()l, \sym vldr \out\()h, \sym + 8 .endm .macro __adr, reg, lbl adr \reg, \lbl THUMB( orr \reg, \reg, #1 ) .endm .macro in_bs_ch, b0, b1, b2, b3, b4, b5, b6, b7 veor \b2, \b2, \b1 veor \b5, \b5, \b6 veor \b3, \b3, \b0 veor \b6, \b6, \b2 veor \b5, \b5, \b0 veor \b6, \b6, \b3 veor \b3, \b3, \b7 veor \b7, \b7, \b5 veor \b3, \b3, \b4 veor \b4, \b4, \b5 veor \b2, \b2, \b7 veor \b3, \b3, \b1 veor \b1, \b1, \b5 .endm .macro out_bs_ch, b0, b1, b2, b3, b4, b5, b6, b7 veor \b0, \b0, \b6 veor \b1, \b1, \b4 veor \b4, \b4, \b6 veor \b2, \b2, \b0 veor \b6, \b6, \b1 veor \b1, \b1, \b5 veor \b5, \b5, \b3 veor \b3, \b3, \b7 veor \b7, \b7, \b5 veor \b2, \b2, \b5 veor \b4, \b4, \b7 .endm .macro inv_in_bs_ch, b6, b1, b2, b4, b7, b0, b3, b5 veor \b1, \b1, \b7 veor \b4, \b4, \b7 veor \b7, \b7, \b5 veor \b1, \b1, \b3 veor \b2, \b2, \b5 veor \b3, \b3, \b7 veor \b6, \b6, \b1 veor \b2, \b2, \b0 veor \b5, \b5, \b3 veor \b4, \b4, \b6 veor \b0, \b0, \b6 veor \b1, \b1, \b4 .endm .macro inv_out_bs_ch, b6, b5, b0, b3, b7, b1, b4, b2 veor \b1, \b1, \b5 veor \b2, \b2, \b7 veor \b3, \b3, \b1 veor \b4, \b4, \b5 veor \b7, \b7, \b5 veor \b3, \b3, \b4 veor \b5, \b5, \b0 veor \b3, \b3, \b7 veor \b6, \b6, \b2 veor \b2, \b2, \b1 veor \b6, \b6, \b3 veor \b3, \b3, \b0 veor \b5, \b5, \b6 .endm .macro mul_gf4, x0, x1, y0, y1, t0, t1 veor \t0, \y0, \y1 vand \t0, \t0, \x0 veor \x0, \x0, \x1 vand \t1, \x1, \y0 vand \x0, \x0, \y1 veor \x1, \t1, \t0 veor \x0, \x0, \t1 .endm .macro mul_gf4_n_gf4, x0, x1, y0, y1, t0, x2, x3, y2, y3, t1 veor \t0, \y0, \y1 veor \t1, \y2, \y3 vand \t0, \t0, \x0 vand \t1, \t1, \x2 veor \x0, \x0, \x1 veor \x2, \x2, \x3 vand \x1, \x1, \y0 vand \x3, \x3, \y2 vand \x0, \x0, \y1 vand \x2, \x2, \y3 veor \x1, \x1, \x0 veor \x2, \x2, \x3 veor \x0, \x0, \t0 veor \x3, \x3, \t1 .endm .macro mul_gf16_2, x0, x1, x2, x3, x4, x5, x6, x7, \ y0, y1, y2, y3, t0, t1, t2, t3 veor \t0, \x0, \x2 veor \t1, \x1, \x3 mul_gf4 \x0, \x1, \y0, \y1, \t2, \t3 veor \y0, \y0, \y2 veor \y1, \y1, \y3 mul_gf4_n_gf4 \t0, \t1, \y0, \y1, \t3, \x2, \x3, \y2, \y3, \t2 veor \x0, \x0, \t0 veor \x2, \x2, \t0 veor \x1, \x1, \t1 veor \x3, \x3, \t1 veor \t0, \x4, \x6 veor \t1, \x5, \x7 mul_gf4_n_gf4 \t0, \t1, \y0, \y1, \t3, \x6, \x7, \y2, \y3, \t2 veor \y0, \y0, \y2 veor \y1, \y1, \y3 mul_gf4 \x4, \x5, \y0, \y1, \t2, \t3 veor \x4, \x4, \t0 veor \x6, \x6, \t0 veor \x5, \x5, \t1 veor \x7, \x7, \t1 .endm .macro inv_gf256, x0, x1, x2, x3, x4, x5, x6, x7, \ t0, t1, t2, t3, s0, s1, s2, s3 veor \t3, \x4, \x6 veor \t0, \x5, \x7 veor \t1, \x1, \x3 veor \s1, \x7, \x6 veor \s0, \x0, \x2 veor \s3, \t3, \t0 vorr \t2, \t0, \t1 vand \s2, \t3, \s0 vorr \t3, \t3, \s0 veor \s0, \s0, \t1 vand \t0, \t0, \t1 veor \t1, \x3, \x2 vand \s3, \s3, \s0 vand \s1, \s1, \t1 veor \t1, \x4, \x5 veor \s0, \x1, \x0 veor \t3, \t3, \s1 veor \t2, \t2, \s1 vand \s1, \t1, \s0 vorr \t1, \t1, \s0 veor \t3, \t3, \s3 veor \t0, \t0, \s1 veor \t2, \t2, \s2 veor \t1, \t1, \s3 veor \t0, \t0, \s2 vand \s0, \x7, \x3 veor \t1, \t1, \s2 vand \s1, \x6, \x2 vand \s2, \x5, \x1 vorr \s3, \x4, \x0 veor \t3, \t3, \s0 veor \t1, \t1, \s2 veor \s0, \t0, \s3 veor \t2, \t2, \s1 vand \s2, \t3, \t1 veor \s1, \t2, \s2 veor \s3, \s0, \s2 vbsl \s1, \t1, \s0 vmvn \t0, \s0 vbsl \s0, \s1, \s3 vbsl \t0, \s1, \s3 vbsl \s3, \t3, \t2 veor \t3, \t3, \t2 vand \s2, \s0, \s3 veor \t1, \t1, \t0 veor \s2, \s2, \t3 mul_gf16_2 \x0, \x1, \x2, \x3, \x4, \x5, \x6, \x7, \ \s3, \s2, \s1, \t1, \s0, \t0, \t2, \t3 .endm .macro sbox, b0, b1, b2, b3, b4, b5, b6, b7, \ t0, t1, t2, t3, s0, s1, s2, s3 in_bs_ch \b0, \b1, \b2, \b3, \b4, \b5, \b6, \b7 inv_gf256 \b6, \b5, \b0, \b3, \b7, \b1, \b4, \b2, \ \t0, \t1, \t2, \t3, \s0, \s1, \s2, \s3 out_bs_ch \b7, \b1, \b4, \b2, \b6, \b5, \b0, \b3 .endm .macro inv_sbox, b0, b1, b2, b3, b4, b5, b6, b7, \ t0, t1, t2, t3, s0, s1, s2, s3 inv_in_bs_ch \b0, \b1, \b2, \b3, \b4, \b5, \b6, \b7 inv_gf256 \b5, \b1, \b2, \b6, \b3, \b7, \b0, \b4, \ \t0, \t1, \t2, \t3, \s0, \s1, \s2, \s3 inv_out_bs_ch \b3, \b7, \b0, \b4, \b5, \b1, \b2, \b6 .endm .macro shift_rows, x0, x1, x2, x3, x4, x5, x6, x7, \ t0, t1, t2, t3, mask vld1.8 {\t0-\t1}, [bskey, :256]! veor \t0, \t0, \x0 vld1.8 {\t2-\t3}, [bskey, :256]! veor \t1, \t1, \x1 __tbl \x0, \t0, \mask veor \t2, \t2, \x2 __tbl \x1, \t1, \mask vld1.8 {\t0-\t1}, [bskey, :256]! veor \t3, \t3, \x3 __tbl \x2, \t2, \mask __tbl \x3, \t3, \mask vld1.8 {\t2-\t3}, [bskey, :256]! veor \t0, \t0, \x4 veor \t1, \t1, \x5 __tbl \x4, \t0, \mask veor \t2, \t2, \x6 __tbl \x5, \t1, \mask veor \t3, \t3, \x7 __tbl \x6, \t2, \mask __tbl \x7, \t3, \mask .endm .macro inv_shift_rows, x0, x1, x2, x3, x4, x5, x6, x7, \ t0, t1, t2, t3, mask __tbl \x0, \x0, \mask, \t0 __tbl \x1, \x1, \mask, \t1 __tbl \x2, \x2, \mask, \t2 __tbl \x3, \x3, \mask, \t3 __tbl \x4, \x4, \mask, \t0 __tbl \x5, \x5, \mask, \t1 __tbl \x6, \x6, \mask, \t2 __tbl \x7, \x7, \mask, \t3 .endm .macro mix_cols, x0, x1, x2, x3, x4, x5, x6, x7, \ t0, t1, t2, t3, t4, t5, t6, t7, inv vext.8 \t0, \x0, \x0, #12 vext.8 \t1, \x1, \x1, #12 veor \x0, \x0, \t0 vext.8 \t2, \x2, \x2, #12 veor \x1, \x1, \t1 vext.8 \t3, \x3, \x3, #12 veor \x2, \x2, \t2 vext.8 \t4, \x4, \x4, #12 veor \x3, \x3, \t3 vext.8 \t5, \x5, \x5, #12 veor \x4, \x4, \t4 vext.8 \t6, \x6, \x6, #12 veor \x5, \x5, \t5 vext.8 \t7, \x7, \x7, #12 veor \x6, \x6, \t6 veor \t1, \t1, \x0 veor.8 \x7, \x7, \t7 vext.8 \x0, \x0, \x0, #8 veor \t2, \t2, \x1 veor \t0, \t0, \x7 veor \t1, \t1, \x7 vext.8 \x1, \x1, \x1, #8 veor \t5, \t5, \x4 veor \x0, \x0, \t0 veor \t6, \t6, \x5 veor \x1, \x1, \t1 vext.8 \t0, \x4, \x4, #8 veor \t4, \t4, \x3 vext.8 \t1, \x5, \x5, #8 veor \t7, \t7, \x6 vext.8 \x4, \x3, \x3, #8 veor \t3, \t3, \x2 vext.8 \x5, \x7, \x7, #8 veor \t4, \t4, \x7 vext.8 \x3, \x6, \x6, #8 veor \t3, \t3, \x7 vext.8 \x6, \x2, \x2, #8 veor \x7, \t1, \t5 .ifb \inv veor \x2, \t0, \t4 veor \x4, \x4, \t3 veor \x5, \x5, \t7 veor \x3, \x3, \t6 veor \x6, \x6, \t2 .else veor \t3, \t3, \x4 veor \x5, \x5, \t7 veor \x2, \x3, \t6 veor \x3, \t0, \t4 veor \x4, \x6, \t2 vmov \x6, \t3 .endif .endm .macro inv_mix_cols, x0, x1, x2, x3, x4, x5, x6, x7, \ t0, t1, t2, t3, t4, t5, t6, t7 vld1.8 {\t0-\t1}, [bskey, :256]! veor \x0, \x0, \t0 vld1.8 {\t2-\t3}, [bskey, :256]! veor \x1, \x1, \t1 vld1.8 {\t4-\t5}, [bskey, :256]! veor \x2, \x2, \t2 vld1.8 {\t6-\t7}, [bskey, :256] sub bskey, bskey, #224 veor \x3, \x3, \t3 veor \x4, \x4, \t4 veor \x5, \x5, \t5 veor \x6, \x6, \t6 veor \x7, \x7, \t7 vext.8 \t0, \x0, \x0, #8 vext.8 \t6, \x6, \x6, #8 vext.8 \t7, \x7, \x7, #8 veor \t0, \t0, \x0 vext.8 \t1, \x1, \x1, #8 veor \t6, \t6, \x6 vext.8 \t2, \x2, \x2, #8 veor \t7, \t7, \x7 vext.8 \t3, \x3, \x3, #8 veor \t1, \t1, \x1 vext.8 \t4, \x4, \x4, #8 veor \t2, \t2, \x2 vext.8 \t5, \x5, \x5, #8 veor \t3, \t3, \x3 veor \t4, \t4, \x4 veor \t5, \t5, \x5 veor \x0, \x0, \t6 veor \x1, \x1, \t6 veor \x2, \x2, \t0 veor \x4, \x4, \t2 veor \x3, \x3, \t1 veor \x1, \x1, \t7 veor \x2, \x2, \t7 veor \x4, \x4, \t6 veor \x5, \x5, \t3 veor \x3, \x3, \t6 veor \x6, \x6, \t4 veor \x4, \x4, \t7 veor \x5, \x5, \t7 veor \x7, \x7, \t5 mix_cols \x0, \x1, \x2, \x3, \x4, \x5, \x6, \x7, \ \t0, \t1, \t2, \t3, \t4, \t5, \t6, \t7, 1 .endm .macro swapmove_2x, a0, b0, a1, b1, n, mask, t0, t1 vshr.u64 \t0, \b0, #\n vshr.u64 \t1, \b1, #\n veor \t0, \t0, \a0 veor \t1, \t1, \a1 vand \t0, \t0, \mask vand \t1, \t1, \mask veor \a0, \a0, \t0 vshl.s64 \t0, \t0, #\n veor \a1, \a1, \t1 vshl.s64 \t1, \t1, #\n veor \b0, \b0, \t0 veor \b1, \b1, \t1 .endm .macro bitslice, x7, x6, x5, x4, x3, x2, x1, x0, t0, t1, t2, t3 vmov.i8 \t0, #0x55 vmov.i8 \t1, #0x33 swapmove_2x \x0, \x1, \x2, \x3, 1, \t0, \t2, \t3 swapmove_2x \x4, \x5, \x6, \x7, 1, \t0, \t2, \t3 vmov.i8 \t0, #0x0f swapmove_2x \x0, \x2, \x1, \x3, 2, \t1, \t2, \t3 swapmove_2x \x4, \x6, \x5, \x7, 2, \t1, \t2, \t3 swapmove_2x \x0, \x4, \x1, \x5, 4, \t0, \t2, \t3 swapmove_2x \x2, \x6, \x3, \x7, 4, \t0, \t2, \t3 .endm .align 4 M0: .quad 0x02060a0e03070b0f, 0x0004080c0105090d /* * void aesbs_convert_key(u8 out[], u32 const rk[], int rounds) */ ENTRY(aesbs_convert_key) vld1.32 {q7}, [r1]! // load round 0 key vld1.32 {q15}, [r1]! // load round 1 key vmov.i8 q8, #0x01 // bit masks vmov.i8 q9, #0x02 vmov.i8 q10, #0x04 vmov.i8 q11, #0x08 vmov.i8 q12, #0x10 vmov.i8 q13, #0x20 __ldr q14, M0 sub r2, r2, #1 vst1.8 {q7}, [r0, :128]! // save round 0 key .Lkey_loop: __tbl q7, q15, q14 vmov.i8 q6, #0x40 vmov.i8 q15, #0x80 vtst.8 q0, q7, q8 vtst.8 q1, q7, q9 vtst.8 q2, q7, q10 vtst.8 q3, q7, q11 vtst.8 q4, q7, q12 vtst.8 q5, q7, q13 vtst.8 q6, q7, q6 vtst.8 q7, q7, q15 vld1.32 {q15}, [r1]! // load next round key vmvn q0, q0 vmvn q1, q1 vmvn q5, q5 vmvn q6, q6 subs r2, r2, #1 vst1.8 {q0-q1}, [r0, :256]! vst1.8 {q2-q3}, [r0, :256]! vst1.8 {q4-q5}, [r0, :256]! vst1.8 {q6-q7}, [r0, :256]! bne .Lkey_loop vmov.i8 q7, #0x63 // compose .L63 veor q15, q15, q7 vst1.8 {q15}, [r0, :128] bx lr ENDPROC(aesbs_convert_key) .align 4 M0SR: .quad 0x0a0e02060f03070b, 0x0004080c05090d01 aesbs_encrypt8: vld1.8 {q9}, [bskey, :128]! // round 0 key __ldr q8, M0SR veor q10, q0, q9 // xor with round0 key veor q11, q1, q9 __tbl q0, q10, q8 veor q12, q2, q9 __tbl q1, q11, q8 veor q13, q3, q9 __tbl q2, q12, q8 veor q14, q4, q9 __tbl q3, q13, q8 veor q15, q5, q9 __tbl q4, q14, q8 veor q10, q6, q9 __tbl q5, q15, q8 veor q11, q7, q9 __tbl q6, q10, q8 __tbl q7, q11, q8 bitslice q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11 sub rounds, rounds, #1 b .Lenc_sbox .align 5 SR: .quad 0x0504070600030201, 0x0f0e0d0c0a09080b SRM0: .quad 0x0304090e00050a0f, 0x01060b0c0207080d .Lenc_last: __ldr q12, SRM0 .Lenc_loop: shift_rows q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12 .Lenc_sbox: sbox q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12, \ q13, q14, q15 subs rounds, rounds, #1 bcc .Lenc_done mix_cols q0, q1, q4, q6, q3, q7, q2, q5, q8, q9, q10, q11, q12, \ q13, q14, q15 beq .Lenc_last __ldr q12, SR b .Lenc_loop .Lenc_done: vld1.8 {q12}, [bskey, :128] // last round key bitslice q0, q1, q4, q6, q3, q7, q2, q5, q8, q9, q10, q11 veor q0, q0, q12 veor q1, q1, q12 veor q4, q4, q12 veor q6, q6, q12 veor q3, q3, q12 veor q7, q7, q12 veor q2, q2, q12 veor q5, q5, q12 bx lr ENDPROC(aesbs_encrypt8) .align 4 M0ISR: .quad 0x0a0e0206070b0f03, 0x0004080c0d010509 aesbs_decrypt8: add bskey, bskey, rounds, lsl #7 sub bskey, bskey, #112 vld1.8 {q9}, [bskey, :128] // round 0 key sub bskey, bskey, #128 __ldr q8, M0ISR veor q10, q0, q9 // xor with round0 key veor q11, q1, q9 __tbl q0, q10, q8 veor q12, q2, q9 __tbl q1, q11, q8 veor q13, q3, q9 __tbl q2, q12, q8 veor q14, q4, q9 __tbl q3, q13, q8 veor q15, q5, q9 __tbl q4, q14, q8 veor q10, q6, q9 __tbl q5, q15, q8 veor q11, q7, q9 __tbl q6, q10, q8 __tbl q7, q11, q8 bitslice q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11 sub rounds, rounds, #1 b .Ldec_sbox .align 5 ISR: .quad 0x0504070602010003, 0x0f0e0d0c080b0a09 ISRM0: .quad 0x01040b0e0205080f, 0x0306090c00070a0d .Ldec_last: __ldr q12, ISRM0 .Ldec_loop: inv_shift_rows q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12 .Ldec_sbox: inv_sbox q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12, \ q13, q14, q15 subs rounds, rounds, #1 bcc .Ldec_done inv_mix_cols q0, q1, q6, q4, q2, q7, q3, q5, q8, q9, q10, q11, q12, \ q13, q14, q15 beq .Ldec_last __ldr q12, ISR b .Ldec_loop .Ldec_done: add bskey, bskey, #112 vld1.8 {q12}, [bskey, :128] // last round key bitslice q0, q1, q6, q4, q2, q7, q3, q5, q8, q9, q10, q11 veor q0, q0, q12 veor q1, q1, q12 veor q6, q6, q12 veor q4, q4, q12 veor q2, q2, q12 veor q7, q7, q12 veor q3, q3, q12 veor q5, q5, q12 bx lr ENDPROC(aesbs_decrypt8) /* * aesbs_ecb_encrypt(u8 out[], u8 const in[], u8 const rk[], int rounds, * int blocks) * aesbs_ecb_decrypt(u8 out[], u8 const in[], u8 const rk[], int rounds, * int blocks) */ .macro __ecb_crypt, do8, o0, o1, o2, o3, o4, o5, o6, o7 push {r4-r6, lr} ldr r5, [sp, #16] // number of blocks 99: __adr ip, 0f and lr, r5, #7 cmp r5, #8 sub ip, ip, lr, lsl #2 bxlt ip // computed goto if blocks < 8 vld1.8 {q0}, [r1]! vld1.8 {q1}, [r1]! vld1.8 {q2}, [r1]! vld1.8 {q3}, [r1]! vld1.8 {q4}, [r1]! vld1.8 {q5}, [r1]! vld1.8 {q6}, [r1]! vld1.8 {q7}, [r1]! 0: mov bskey, r2 mov rounds, r3 bl \do8 __adr ip, 1f and lr, r5, #7 cmp r5, #8 sub ip, ip, lr, lsl #2 bxlt ip // computed goto if blocks < 8 vst1.8 {\o0}, [r0]! vst1.8 {\o1}, [r0]! vst1.8 {\o2}, [r0]! vst1.8 {\o3}, [r0]! vst1.8 {\o4}, [r0]! vst1.8 {\o5}, [r0]! vst1.8 {\o6}, [r0]! vst1.8 {\o7}, [r0]! 1: subs r5, r5, #8 bgt 99b pop {r4-r6, pc} .endm .align 4 ENTRY(aesbs_ecb_encrypt) __ecb_crypt aesbs_encrypt8, q0, q1, q4, q6, q3, q7, q2, q5 ENDPROC(aesbs_ecb_encrypt) .align 4 ENTRY(aesbs_ecb_decrypt) __ecb_crypt aesbs_decrypt8, q0, q1, q6, q4, q2, q7, q3, q5 ENDPROC(aesbs_ecb_decrypt) /* * aesbs_cbc_decrypt(u8 out[], u8 const in[], u8 const rk[], * int rounds, int blocks, u8 iv[]) */ .align 4 ENTRY(aesbs_cbc_decrypt) mov ip, sp push {r4-r6, lr} ldm ip, {r5-r6} // load args 4-5 99: __adr ip, 0f and lr, r5, #7 cmp r5, #8 sub ip, ip, lr, lsl #2 mov lr, r1 bxlt ip // computed goto if blocks < 8 vld1.8 {q0}, [lr]! vld1.8 {q1}, [lr]! vld1.8 {q2}, [lr]! vld1.8 {q3}, [lr]! vld1.8 {q4}, [lr]! vld1.8 {q5}, [lr]! vld1.8 {q6}, [lr]! vld1.8 {q7}, [lr] 0: mov bskey, r2 mov rounds, r3 bl aesbs_decrypt8 vld1.8 {q8}, [r6] vmov q9, q8 vmov q10, q8 vmov q11, q8 vmov q12, q8 vmov q13, q8 vmov q14, q8 vmov q15, q8 __adr ip, 1f and lr, r5, #7 cmp r5, #8 sub ip, ip, lr, lsl #2 bxlt ip // computed goto if blocks < 8 vld1.8 {q9}, [r1]! vld1.8 {q10}, [r1]! vld1.8 {q11}, [r1]! vld1.8 {q12}, [r1]! vld1.8 {q13}, [r1]! vld1.8 {q14}, [r1]! vld1.8 {q15}, [r1]! W(nop) 1: __adr ip, 2f sub ip, ip, lr, lsl #3 bxlt ip // computed goto if blocks < 8 veor q0, q0, q8 vst1.8 {q0}, [r0]! veor q1, q1, q9 vst1.8 {q1}, [r0]! veor q6, q6, q10 vst1.8 {q6}, [r0]! veor q4, q4, q11 vst1.8 {q4}, [r0]! veor q2, q2, q12 vst1.8 {q2}, [r0]! veor q7, q7, q13 vst1.8 {q7}, [r0]! veor q3, q3, q14 vst1.8 {q3}, [r0]! veor q5, q5, q15 vld1.8 {q8}, [r1]! // load next round's iv 2: vst1.8 {q5}, [r0]! subs r5, r5, #8 vst1.8 {q8}, [r6] // store next round's iv bgt 99b pop {r4-r6, pc} ENDPROC(aesbs_cbc_decrypt) .macro next_ctr, q vmov.32 \q\()h[1], r10 adds r10, r10, #1 vmov.32 \q\()h[0], r9 adcs r9, r9, #0 vmov.32 \q\()l[1], r8 adcs r8, r8, #0 vmov.32 \q\()l[0], r7 adc r7, r7, #0 vrev32.8 \q, \q .endm /* * aesbs_ctr_encrypt(u8 out[], u8 const in[], u8 const rk[], * int rounds, int blocks, u8 ctr[], u8 final[]) */ ENTRY(aesbs_ctr_encrypt) mov ip, sp push {r4-r10, lr} ldm ip, {r5-r7} // load args 4-6 teq r7, #0 addne r5, r5, #1 // one extra block if final != 0 vld1.8 {q0}, [r6] // load counter vrev32.8 q1, q0 vmov r9, r10, d3 vmov r7, r8, d2 adds r10, r10, #1 adcs r9, r9, #0 adcs r8, r8, #0 adc r7, r7, #0 99: vmov q1, q0 vmov q2, q0 vmov q3, q0 vmov q4, q0 vmov q5, q0 vmov q6, q0 vmov q7, q0 __adr ip, 0f sub lr, r5, #1 and lr, lr, #7 cmp r5, #8 sub ip, ip, lr, lsl #5 sub ip, ip, lr, lsl #2 bxlt ip // computed goto if blocks < 8 next_ctr q1 next_ctr q2 next_ctr q3 next_ctr q4 next_ctr q5 next_ctr q6 next_ctr q7 0: mov bskey, r2 mov rounds, r3 bl aesbs_encrypt8 __adr ip, 1f and lr, r5, #7 cmp r5, #8 movgt r4, #0 ldrle r4, [sp, #40] // load final in the last round sub ip, ip, lr, lsl #2 bxlt ip // computed goto if blocks < 8 vld1.8 {q8}, [r1]! vld1.8 {q9}, [r1]! vld1.8 {q10}, [r1]! vld1.8 {q11}, [r1]! vld1.8 {q12}, [r1]! vld1.8 {q13}, [r1]! vld1.8 {q14}, [r1]! teq r4, #0 // skip last block if 'final' 1: bne 2f vld1.8 {q15}, [r1]! 2: __adr ip, 3f cmp r5, #8 sub ip, ip, lr, lsl #3 bxlt ip // computed goto if blocks < 8 veor q0, q0, q8 vst1.8 {q0}, [r0]! veor q1, q1, q9 vst1.8 {q1}, [r0]! veor q4, q4, q10 vst1.8 {q4}, [r0]! veor q6, q6, q11 vst1.8 {q6}, [r0]! veor q3, q3, q12 vst1.8 {q3}, [r0]! veor q7, q7, q13 vst1.8 {q7}, [r0]! veor q2, q2, q14 vst1.8 {q2}, [r0]! teq r4, #0 // skip last block if 'final' W(bne) 5f 3: veor q5, q5, q15 vst1.8 {q5}, [r0]! 4: next_ctr q0 subs r5, r5, #8 bgt 99b vst1.8 {q0}, [r6] pop {r4-r10, pc} 5: vst1.8 {q5}, [r4] b 4b ENDPROC(aesbs_ctr_encrypt) .macro next_tweak, out, in, const, tmp vshr.s64 \tmp, \in, #63 vand \tmp, \tmp, \const vadd.u64 \out, \in, \in vext.8 \tmp, \tmp, \tmp, #8 veor \out, \out, \tmp .endm .align 4 .Lxts_mul_x: .quad 1, 0x87 /* * aesbs_xts_encrypt(u8 out[], u8 const in[], u8 const rk[], int rounds, * int blocks, u8 iv[]) * aesbs_xts_decrypt(u8 out[], u8 const in[], u8 const rk[], int rounds, * int blocks, u8 iv[]) */ __xts_prepare8: vld1.8 {q14}, [r7] // load iv __ldr q15, .Lxts_mul_x // load tweak mask vmov q12, q14 __adr ip, 0f and r4, r6, #7 cmp r6, #8 sub ip, ip, r4, lsl #5 mov r4, sp bxlt ip // computed goto if blocks < 8 vld1.8 {q0}, [r1]! next_tweak q12, q14, q15, q13 veor q0, q0, q14 vst1.8 {q14}, [r4, :128]! vld1.8 {q1}, [r1]! next_tweak q14, q12, q15, q13 veor q1, q1, q12 vst1.8 {q12}, [r4, :128]! vld1.8 {q2}, [r1]! next_tweak q12, q14, q15, q13 veor q2, q2, q14 vst1.8 {q14}, [r4, :128]! vld1.8 {q3}, [r1]! next_tweak q14, q12, q15, q13 veor q3, q3, q12 vst1.8 {q12}, [r4, :128]! vld1.8 {q4}, [r1]! next_tweak q12, q14, q15, q13 veor q4, q4, q14 vst1.8 {q14}, [r4, :128]! vld1.8 {q5}, [r1]! next_tweak q14, q12, q15, q13 veor q5, q5, q12 vst1.8 {q12}, [r4, :128]! vld1.8 {q6}, [r1]! next_tweak q12, q14, q15, q13 veor q6, q6, q14 vst1.8 {q14}, [r4, :128]! vld1.8 {q7}, [r1]! next_tweak q14, q12, q15, q13 veor q7, q7, q12 vst1.8 {q12}, [r4, :128] 0: vst1.8 {q14}, [r7] // store next iv bx lr ENDPROC(__xts_prepare8) .macro __xts_crypt, do8, o0, o1, o2, o3, o4, o5, o6, o7 push {r4-r8, lr} mov r5, sp // preserve sp ldrd r6, r7, [sp, #24] // get blocks and iv args sub ip, sp, #128 // make room for 8x tweak bic ip, ip, #0xf // align sp to 16 bytes mov sp, ip 99: bl __xts_prepare8 mov bskey, r2 mov rounds, r3 bl \do8 __adr ip, 0f and lr, r6, #7 cmp r6, #8 sub ip, ip, lr, lsl #2 mov r4, sp bxlt ip // computed goto if blocks < 8 vld1.8 {q8}, [r4, :128]! vld1.8 {q9}, [r4, :128]! vld1.8 {q10}, [r4, :128]! vld1.8 {q11}, [r4, :128]! vld1.8 {q12}, [r4, :128]! vld1.8 {q13}, [r4, :128]! vld1.8 {q14}, [r4, :128]! vld1.8 {q15}, [r4, :128] 0: __adr ip, 1f sub ip, ip, lr, lsl #3 bxlt ip // computed goto if blocks < 8 veor \o0, \o0, q8 vst1.8 {\o0}, [r0]! veor \o1, \o1, q9 vst1.8 {\o1}, [r0]! veor \o2, \o2, q10 vst1.8 {\o2}, [r0]! veor \o3, \o3, q11 vst1.8 {\o3}, [r0]! veor \o4, \o4, q12 vst1.8 {\o4}, [r0]! veor \o5, \o5, q13 vst1.8 {\o5}, [r0]! veor \o6, \o6, q14 vst1.8 {\o6}, [r0]! veor \o7, \o7, q15 vst1.8 {\o7}, [r0]! 1: subs r6, r6, #8 bgt 99b mov sp, r5 pop {r4-r8, pc} .endm ENTRY(aesbs_xts_encrypt) __xts_crypt aesbs_encrypt8, q0, q1, q4, q6, q3, q7, q2, q5 ENDPROC(aesbs_xts_encrypt) ENTRY(aesbs_xts_decrypt) __xts_crypt aesbs_decrypt8, q0, q1, q6, q4, q2, q7, q3, q5 ENDPROC(aesbs_xts_decrypt)