@@ -94,7 +94,7 @@ $L$sqr_1024_no_n_copy:
9494 vmovdqu ymm8 , YMMWORD [ (( 256 - 128 )) + rsi ]
9595
9696 lea rbx ,[ 192 + rsp ]
97- vpbroadcastq ymm15 , QWORD [ $ L $ and_mask ]
97+ vmovdqu ymm15 , YMMWORD [ $ L $ and_mask ]
9898 jmp NEAR $ L $ OOP_GRANDE_SQR_1024
9999
100100ALIGN 32
@@ -863,10 +863,10 @@ $L$oop_mul_1024:
863863 vpmuludq ymm12 , ymm11 , YMMWORD [ (( 192 - 128 )) + rcx ]
864864 vpaddq ymm6 , ymm6 , ymm12
865865 vpmuludq ymm13 , ymm11 , YMMWORD [ (( 224 - 128 )) + rcx ]
866- vpblendd ymm9 , ymm9 , ymm14 , 3
866+ vpblendd ymm12 , ymm9 , ymm14 , 3
867867 vpaddq ymm7 , ymm7 , ymm13
868868 vpmuludq ymm0 , ymm11 , YMMWORD [ (( 256 - 128 )) + rcx ]
869- vpaddq ymm3 , ymm3 , ymm9
869+ vpaddq ymm3 , ymm3 , ymm12
870870 vpaddq ymm8 , ymm8 , ymm0
871871
872872 mov rax , rbx
@@ -879,7 +879,9 @@ $L$oop_mul_1024:
879879 vmovdqu ymm13 , YMMWORD [ (( - 8 + 64 - 128 )) + rsi ]
880880
881881 mov rax , r10
882+ vpblendd ymm9 , ymm9 , ymm14 , 0xfc
882883 imul eax , r8d
884+ vpaddq ymm4 , ymm4 , ymm9
883885 and eax , 0x1fffffff
884886
885887 imul rbx , QWORD [ (( 16 - 128 )) + rsi ]
@@ -1108,7 +1110,6 @@ $L$oop_mul_1024:
11081110
11091111 dec r14d
11101112 jnz NEAR $ L $ oop_mul_1024
1111- vpermq ymm15 , ymm15 , 0
11121113 vpaddq ymm0 , ymm12 , YMMWORD [ rsp ]
11131114
11141115 vpsrlq ymm12 , ymm0 , 29
@@ -1785,7 +1786,7 @@ rsaz_avx2_eligible:
17851786
17861787ALIGN 64
17871788$ L $ and_mask:
1788- DQ 0x1fffffff , 0x1fffffff , 0x1fffffff ,- 1
1789+ DQ 0x1fffffff , 0x1fffffff , 0x1fffffff , 0x1fffffff
17891790$ L $ scatter_permd:
17901791 DD 0 , 2 , 4 , 6 , 7 , 7 , 7 , 7
17911792$ L $ gather_permd:
0 commit comments