[V2] VECT: Support LEN_MASK_ LOAD/STORE to support flow control for length loop control

From: Ju-Zhe Zhong <juzhe.zhong@rivai.ai>

From: Ju-Zhe Zhong <juzhe.zhong@rivai.ai>

Target like ARM SVE in GCC has an elegant way to handle both loop control
and flow control simultaneously:

loop_control_mask = WHILE_ULT
flow_control_mask = comparison
control_mask = loop_control_mask & flow_control_mask;
MASK_LOAD (control_mask)
MASK_STORE (control_mask)

However, targets like RVV (RISC-V Vector) can not use this approach in
auto-vectorization since RVV use length in loop control.

This patch adds LEN_MASK_ LOAD/STORE to support flow control for targets
like RISC-V that uses length in loop control.
Normalize load/store into LEN_MASK_ LOAD/STORE as long as either length
or mask is valid. Length is the outcome of SELECT_VL or MIN_EXPR.
Mask is the outcome of comparison.

LEN_MASK_ LOAD/STORE format is defined as follows:
1). LEN_MASK_LOAD (ptr, align, length, mask).
2). LEN_MASK_STORE (ptr, align, length, mask, vec).

Consider these 4 following cases:

VLA: Variable-length auto-vectorization
VLS: Specific-length auto-vectorization

Case 1 (VLS): -mrvv-vector-bits=128   IR (Does not use LEN_MASK_*):
Code:					v1 = MEM (...)
  for (int i = 0; i < 4; i++)           v2 = MEM (...)
    a[i] = b[i] + c[i];                 v3 = v1 + v2 
                                        MEM[...] = v3

Case 2 (VLS): -mrvv-vector-bits=128   IR (LEN_MASK_* with length = VF, mask = comparison):
Code:                                   mask = comparison
  for (int i = 0; i < 4; i++)           v1 = LEN_MASK_LOAD (length = VF, mask)
    if (cond[i])                        v2 = LEN_MASK_LOAD (length = VF, mask) 
      a[i] = b[i] + c[i];               v3 = v1 + v2
                                        LEN_MASK_STORE (length = VF, mask, v3)

Case 3 (VLA):
Code:                                   loop_len = SELECT_VL or MIN
  for (int i = 0; i < n; i++)           v1 = LEN_MASK_LOAD (length = loop_len, mask = {-1,-1,...})
      a[i] = b[i] + c[i];               v2 = LEN_MASK_LOAD (length = loop_len, mask = {-1,-1,...})
                                        v3 = v1 + v2                            
                                        LEN_MASK_STORE (length = loop_len, mask = {-1,-1,...}, v3)

Case 4 (VLA):
Code:                                   loop_len = SELECT_VL or MIN
  for (int i = 0; i < n; i++)           mask = comparison
      if (cond[i])                      v1 = LEN_MASK_LOAD (length = loop_len, mask)
      a[i] = b[i] + c[i];               v2 = LEN_MASK_LOAD (length = loop_len, mask)
                                        v3 = v1 + v2                            
                                        LEN_MASK_STORE (length = loop_len, mask, v3)

More features:
1. Support simplify gimple fold for LEN_MASK_ LOAD/STORE:
   LEN_MASK_STORE (length = vf, mask = {-1,-1,...}, v) ===> MEM [...] = V
2. Allow DSE for LEN_MASK_* LOAD/STORE.

Bootstrap && Regression on X86 with no surprise difference.

gcc/ChangeLog:

        * doc/md.texi: Add LEN_MASK_ LOAD/STORE.
        * genopinit.cc (main): Ditto.
        (CMP_NAME): Ditto.
        * gimple-fold.cc (arith_overflowed_p): Ditto.
        (gimple_fold_partial_load_store_mem_ref): Ditto.
        (gimple_fold_partial_store): Ditto.
        (gimple_fold_call): Ditto.
        * internal-fn.cc (len_maskload_direct): Ditto.
        (len_maskstore_direct): Ditto.
        (expand_partial_load_optab_fn): Ditto.
        (expand_len_maskload_optab_fn): Ditto.
        (expand_partial_store_optab_fn): Ditto.
        (expand_len_maskstore_optab_fn): Ditto.
        (direct_len_maskload_optab_supported_p): Ditto.
        (direct_len_maskstore_optab_supported_p): Ditto.
        (internal_load_fn_p): Ditto.
        (internal_store_fn_p): Ditto.
        (internal_fn_mask_index): Ditto.
        (internal_fn_stored_value_index): Ditto.
        * internal-fn.def (LEN_MASK_LOAD): Ditto.
        (LEN_MASK_STORE): Ditto.
        * optabs-query.cc (can_vec_len_mask_load_store_p): Ditto.
        * optabs-query.h (can_vec_len_mask_load_store_p): Ditto.
        * optabs.def (OPTAB_CD): Ditto.
        * tree-data-ref.cc (get_references_in_stmt): Ditto.
        * tree-if-conv.cc (ifcvt_can_use_mask_load_store): Ditto.
        * tree-ssa-alias.cc (ref_maybe_used_by_call_p_1): Ditto.
        (call_may_clobber_ref_p_1): Ditto.
        * tree-ssa-dse.cc (initialize_ao_ref_for_dse): Ditto.
        (dse_optimize_stmt): Ditto.
        * tree-ssa-loop-ivopts.cc (get_mem_type_for_internal_fn): Ditto.
        (get_alias_ptr_type_for_ptr_address): Ditto.
        * tree-ssa-sccvn.cc (vn_reference_lookup_3): Ditto.
        * tree-vect-data-refs.cc (can_group_stmts_p): Ditto.
        (vect_find_stmt_data_reference): Ditto.
        (vect_supportable_dr_alignment): Ditto.
        * tree-vect-loop.cc (vect_verify_loop_lens): Ditto.
        (optimize_mask_stores): Ditto.
        * tree-vect-slp.cc (vect_get_operand_map): Ditto.
        (vect_build_slp_tree_2): Ditto.
        * tree-vect-stmts.cc (check_load_store_for_partial_vectors): Ditto.
        (vectorizable_store): Ditto.
        (vectorizable_load): Ditto.
        (vect_get_vector_types_for_stmt): Ditto.
        * tree-vectorizer.cc (try_vectorize_loop_1): Ditto.

---
 gcc/doc/md.texi             | 32 ++++++++++++
 gcc/genopinit.cc            |  6 ++-
 gcc/gimple-fold.cc          | 28 ++++++++---
 gcc/internal-fn.cc          | 37 +++++++++++++-
 gcc/internal-fn.def         |  4 ++
 gcc/optabs-query.cc         | 39 +++++++++++++++
 gcc/optabs-query.h          |  1 +
 gcc/optabs.def              |  2 +
 gcc/tree-data-ref.cc        |  4 ++
 gcc/tree-if-conv.cc         |  3 ++
 gcc/tree-ssa-alias.cc       |  3 ++
 gcc/tree-ssa-dse.cc         | 12 +++++
 gcc/tree-ssa-loop-ivopts.cc |  8 +++
 gcc/tree-ssa-sccvn.cc       |  6 +++
 gcc/tree-vect-data-refs.cc  | 20 +++++---
 gcc/tree-vect-loop.cc       | 52 +++++++++++--------
 gcc/tree-vect-slp.cc        |  5 ++
 gcc/tree-vect-stmts.cc      | 99 ++++++++++++++++++++++++++++++++++---
 gcc/tree-vectorizer.cc      |  2 +
 19 files changed, 320 insertions(+), 43 deletions(-)

Message ID	20230612041438.272885-1-juzhe.zhong@rivai.ai
State	New
Headers	show Return-Path: <gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org> X-Original-To: incoming@patchwork.ozlabs.org Delivered-To: patchwork-incoming@legolas.ozlabs.org Authentication-Results: legolas.ozlabs.org; spf=pass (sender SPF authorized) smtp.mailfrom=gcc.gnu.org (client-ip=2620:52:3:1:0:246e:9693:128c; helo=sourceware.org; envelope-from=gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org; receiver=<UNKNOWN>) Received: from sourceware.org (server2.sourceware.org [IPv6:2620:52:3:1:0:246e:9693:128c]) (using TLSv1.3 with cipher TLS_AES_256_GCM_SHA384 (256/256 bits) key-exchange X25519 server-signature ECDSA (P-384) server-digest SHA384) (No client certificate requested) by legolas.ozlabs.org (Postfix) with ESMTPS id 4QfddC4Lffz20QH for <incoming@patchwork.ozlabs.org>; Mon, 12 Jun 2023 14:15:10 +1000 (AEST) Received: from server2.sourceware.org (localhost [IPv6:::1]) by sourceware.org (Postfix) with ESMTP id 67E973858002 for <incoming@patchwork.ozlabs.org>; Mon, 12 Jun 2023 04:15:08 +0000 (GMT) X-Original-To: gcc-patches@gcc.gnu.org Delivered-To: gcc-patches@gcc.gnu.org Received: from smtpbg154.qq.com (smtpbg154.qq.com [15.184.224.54]) by sourceware.org (Postfix) with ESMTPS id B3C9D3858D28 for <gcc-patches@gcc.gnu.org>; Mon, 12 Jun 2023 04:14:50 +0000 (GMT) DMARC-Filter: OpenDMARC Filter v1.4.2 sourceware.org B3C9D3858D28 Authentication-Results: sourceware.org; dmarc=none (p=none dis=none) header.from=rivai.ai Authentication-Results: sourceware.org; spf=pass smtp.mailfrom=rivai.ai X-QQ-mid: bizesmtp81t1686543283tiu77afo Received: from server1.localdomain ( [58.60.1.22]) by bizesmtp.qq.com (ESMTP) with id ; Mon, 12 Jun 2023 12:14:41 +0800 (CST) X-QQ-SSF: 01400000000000F0S000000A0000000 X-QQ-FEAT: ILHsT53NKPhDlt1bGpfCCYRumVWRIiUpyAiZirW8N2SDb+qLilKwNU4Yx/2Xc QeXZMON5GxdbKB95GSVguqnCrrUnUJc6n7/cjc0XVEcYddJ1rNlyJ1wjCAgPB1Yx5DniJV5 qixuUqeduJJVwiFXDx9uCwRJMreLPMOvE7+UicBFSOoDwN1Esl2XyDqJNMvvNDXAxhBNKQO VMrg3s7/FeWbUginbMdFc3vEq1Jer+jN1vUSMox3XCpAXTykQMXyzN7d+oTva66/hAO/KFl rpIR/gmLuGkWbbgBxlX8Scc8xfmDZC6gj3vGItyZ87GkE3uQ4BPMgiupoR6nOZ7jXeT7Vyr 0+1EpagWOjel9Ml2qiKkZcTAqCHOa95eMXehBMo1Q/PMnnr5PfwwylRCu85UR00M+oSVNvs X-QQ-GoodBg: 2 X-BIZMAIL-ID: 5743639963450380355 From: juzhe.zhong@rivai.ai To: gcc-patches@gcc.gnu.org Cc: richard.sandiford@arm.com, rguenther@suse.de, Ju-Zhe Zhong <juzhe.zhong@rivai.ai> Subject: [PATCH V2] VECT: Support LEN_MASK_ LOAD/STORE to support flow control for length loop control Date: Mon, 12 Jun 2023 12:14:38 +0800 Message-Id: <20230612041438.272885-1-juzhe.zhong@rivai.ai> X-Mailer: git-send-email 2.36.1 MIME-Version: 1.0 Content-Transfer-Encoding: 8bit X-QQ-SENDSIZE: 520 Feedback-ID: bizesmtp:rivai.ai:qybglogicsvrgz:qybglogicsvrgz7a-one-0 X-Spam-Status: No, score=-10.8 required=5.0 tests=BAYES_00, GIT_PATCH_0, KAM_DMARC_STATUS, RCVD_IN_BARRACUDACENTRAL, RCVD_IN_DNSWL_NONE, RCVD_IN_MSPIKE_H5, RCVD_IN_MSPIKE_WL, SPF_HELO_PASS, SPF_PASS, TXREP, T_SCC_BODY_TEXT_LINE autolearn=ham autolearn_force=no version=3.4.6 X-Spam-Checker-Version: SpamAssassin 3.4.6 (2021-04-09) on server2.sourceware.org X-BeenThere: gcc-patches@gcc.gnu.org X-Mailman-Version: 2.1.29 Precedence: list List-Id: Gcc-patches mailing list <gcc-patches.gcc.gnu.org> List-Unsubscribe: <https://gcc.gnu.org/mailman/options/gcc-patches>, <mailto:gcc-patches-request@gcc.gnu.org?subject=unsubscribe> List-Archive: <https://gcc.gnu.org/pipermail/gcc-patches/> List-Post: <mailto:gcc-patches@gcc.gnu.org> List-Help: <mailto:gcc-patches-request@gcc.gnu.org?subject=help> List-Subscribe: <https://gcc.gnu.org/mailman/listinfo/gcc-patches>, <mailto:gcc-patches-request@gcc.gnu.org?subject=subscribe> Errors-To: gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org Sender: "Gcc-patches" <gcc-patches-bounces+incoming=patchwork.ozlabs.org@gcc.gnu.org>
Series	[V2] VECT: Support LEN_MASK_ LOAD/STORE to support flow control for length loop control \| expand [V2] VECT: Support LEN_MASK_ LOAD/STORE to support flow control for length loop control

[V2] VECT: Support LEN_MASK_ LOAD/STORE to support flow control for length loop control

Commit Message

Comments

Patch