[V2] RISC-V: Add pseudo vwmul.wv pattern to enhance vwmul.vv instruction optimizations

From: Juzhe-Zhong <juzhe.zhong@rivai.ai>

From: Juzhe-Zhong <juzhe.zhong@rivai.ai>

This patch is to enhance vwmul.vv combine optimizations.
Consider this following code:
void
vwadd_int16_t_int8_t (int16_t *__restrict dst, int16_t *__restrict dst2,
		      int16_t *__restrict dst3, int16_t *__restrict dst4,
		      int8_t *__restrict a, int8_t *__restrict b,
		      int8_t *__restrict a2, int8_t *__restrict b2, int n)
{
  for (int i = 0; i < n; i++)
    {
      dst[i] = (int16_t) a[i] * (int16_t) b[i];
      dst2[i] = (int16_t) a2[i] * (int16_t) b[i];
      dst3[i] = (int16_t) a2[i] * (int16_t) a[i];
      dst4[i] = (int16_t) a[i] * (int16_t) b2[i];
    }
}

In such complicate case, the operand is not single used, used by multiple statements.
GCC combine optimization will iterate the combination of the operands.

Also, we add another pattern of vwmulsu.vv to enhance the vwmulsu.vv optimization.
Currently, we have format:

(mult: (sign_extend) (zero_extend)) in vector.md for intrinsics calling.
Now, we add a new vwmulsu.ww with this format:
(mult: (zero_extend) (sign_extend)) 

To handle this following cases (sign and unsigned widening multiplication mixing codes):
void
vwadd_int16_t_int8_t (int16_t *__restrict dst, int16_t *__restrict dst2,
		      int16_t *__restrict dst3, int16_t *__restrict dst4,
		      int8_t *__restrict a, uint8_t *__restrict b,
		      uint8_t *__restrict a2, int8_t *__restrict b2, int n)
{
  for (int i = 0; i < n; i++)
    {
      dst[i] = (int16_t) a[i] * (int16_t) b[i];
      dst2[i] = (int16_t) a2[i] * (int16_t) b[i];
      dst3[i] = (int16_t) a2[i] * (int16_t) a[i];
      dst4[i] = (int16_t) a[i] * (int16_t) b2[i];
    }
}

Before this patch:

...
       vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v1,0(a4)
        vsetvli t3,zero,e16,m2,ta,ma
        vsext.vf2       v6,v1
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v1,0(a5)
        vsetvli t3,zero,e16,m2,ta,ma
        add     t0,a0,t4
        vzext.vf2       v4,v1
        vmul.vv v2,v4,v6
        vsetvli zero,t1,e16,m2,ta,ma
        vse16.v v2,0(t0)
        vle8.v  v1,0(a6)
        vsetvli t3,zero,e16,m2,ta,ma
        add     t0,a1,t4
        vzext.vf2       v2,v1
        vmul.vv v4,v2,v4
        vsetvli zero,t1,e16,m2,ta,ma
        vse16.v v4,0(t0)
        vsetvli t3,zero,e16,m2,ta,ma
        add     t0,a2,t4
        vmul.vv v2,v2,v6
        vsetvli zero,t1,e16,m2,ta,ma
        vse16.v v2,0(t0)
        add     t0,a3,t4
        vle8.v  v1,0(a7)
        vsetvli t3,zero,e16,m2,ta,ma
        sub     t6,t6,t1
        vsext.vf2       v2,v1
        vmul.vv v2,v2,v6
        vsetvli zero,t1,e16,m2,ta,ma
        vse16.v v2,0(t0)
...

After this patch:
...
      vsetvli zero,t1,e8,mf2,ta,ma
        vle8.v  v1,0(a4)
        vle8.v  v3,0(a5)
        vsetvli t6,zero,e8,mf2,ta,ma
        add     t0,a0,t3
        vwmulsu.vv      v2,v1,v3
        vsetvli zero,t1,e16,m1,ta,ma
        vse16.v v2,0(t0)
        vle8.v  v2,0(a6)
        vsetvli t6,zero,e8,mf2,ta,ma
        add     t0,a1,t3
        vwmulu.vv       v4,v3,v2
        vsetvli zero,t1,e16,m1,ta,ma
        vse16.v v4,0(t0)
        vsetvli t6,zero,e8,mf2,ta,ma
        add     t0,a2,t3
        vwmulsu.vv      v3,v1,v2
        vsetvli zero,t1,e16,m1,ta,ma
        vse16.v v3,0(t0)
        add     t0,a3,t3
        vle8.v  v3,0(a7)
        vsetvli t6,zero,e8,mf2,ta,ma
        sub     t4,t4,t1
        vwmul.vv        v2,v1,v3
        vsetvli zero,t1,e16,m1,ta,ma
        vse16.v v2,0(t0)
...

gcc/ChangeLog:

        * config/riscv/vector.md: Add vector-opt.md.
        * config/riscv/autovec-opt.md: New file.

gcc/testsuite/ChangeLog:

        * gcc.target/riscv/rvv/autovec/widen/widen-7.c: New test.
        * gcc.target/riscv/rvv/autovec/widen/widen-complicate-3.c: New test.
        * gcc.target/riscv/rvv/autovec/widen/widen-complicate-4.c: New test.
        * gcc.target/riscv/rvv/autovec/widen/widen_run-7.c: New test.

---
 gcc/config/riscv/autovec-opt.md               | 80 +++++++++++++++++++
 gcc/config/riscv/vector.md                    |  3 +-
 .../riscv/rvv/autovec/widen/widen-7.c         | 27 +++++++
 .../rvv/autovec/widen/widen-complicate-3.c    | 32 ++++++++
 .../rvv/autovec/widen/widen-complicate-4.c    | 31 +++++++
 .../riscv/rvv/autovec/widen/widen_run-7.c     | 34 ++++++++
 6 files changed, 206 insertions(+), 1 deletion(-)
 create mode 100644 gcc/config/riscv/autovec-opt.md
 create mode 100644 gcc/testsuite/gcc.target/riscv/rvv/autovec/widen/widen-7.c
 create mode 100644 gcc/testsuite/gcc.target/riscv/rvv/autovec/widen/widen-complicate-3.c
 create mode 100644 gcc/testsuite/gcc.target/riscv/rvv/autovec/widen/widen-complicate-4.c
 create mode 100644 gcc/testsuite/gcc.target/riscv/rvv/autovec/widen/widen_run-7.c

Message ID	20230601083212.245585-1-juzhe.zhong@rivai.ai
State	New
Headers	show Return-Path: <gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org> DMARC-Filter: OpenDMARC Filter v1.4.2 sourceware.org 534693858CDB From: juzhe.zhong@rivai.ai To: gcc-patches@gcc.gnu.org Cc: kito.cheng@gmail.com, kito.cheng@sifive.com, palmer@dabbelt.com, palmer@rivosinc.com, jeffreyalaw@gmail.com, rdapp.gcc@gmail.com, Juzhe-Zhong <juzhe.zhong@rivai.ai> Subject: [PATCH V2] RISC-V: Add pseudo vwmul.wv pattern to enhance vwmul.vv instruction optimizations Date: Thu, 1 Jun 2023 16:32:12 +0800 Message-Id: <20230601083212.245585-1-juzhe.zhong@rivai.ai> MIME-Version: 1.0 Content-Transfer-Encoding: 8bit Feedback-ID: bizesmtp:rivai.ai:qybglogicsvrgz:qybglogicsvrgz7a-one-0 Precedence: list Errors-To: gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org Sender: "Gcc-patches" <gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org>
Series	[V2] RISC-V: Add pseudo vwmul.wv pattern to enhance vwmul.vv instruction optimizations \| expand [V2] RISC-V: Add pseudo vwmul.wv pattern to enhance vwmul.vv instruction optimizations

[V2] RISC-V: Add pseudo vwmul.wv pattern to enhance vwmul.vv instruction optimizations

Commit Message

Comments

Patch