doxygen/mlir_2Dialect_2X86_2Transforms_8h_source.html

//=- Transforms.h - X86 Dialect Transformation Entrypoints --------*- C++ -*-=//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//


#ifndef MLIR_DIALECT_X86_TRANSFORMS_H

#define MLIR_DIALECT_X86_TRANSFORMS_H


#include "mlir/IR/Value.h"


namespace mlir {


class ImplicitLocOpBuilder;

class LLVMConversionTarget;

class LLVMTypeConverter;

class RewritePatternSet;


namespace x86 {


/// Helper class to factor out the creation and extraction of masks from nibs.


struct MaskHelper {

  /// b0 captures the lowest bit, b7 captures the highest bit.

  /// Meant to be used with instructions such as mm256BlendPs.

  template <uint8_t b0, uint8_t b1, uint8_t b2, uint8_t b3, uint8_t b4,

            uint8_t b5, uint8_t b6, uint8_t b7>


  static uint8_t blend() {

    static_assert(b0 <= 1 && b1 <= 1 && b2 <= 1 && b3 <= 1, "overflow");

    static_assert(b4 <= 1 && b5 <= 1 && b6 <= 1 && b7 <= 1, "overflow");

    return static_cast<uint8_t>((b7 << 7) | (b6 << 6) | (b5 << 5) | (b4 << 4) |

                                (b3 << 3) | (b2 << 2) | (b1 << 1) | b0);

  }


  /// b0 captures the lowest bit, b7 captures the highest bit.

  /// Meant to be used with instructions such as mm256BlendPs.


  static void extractBlend(uint8_t mask, uint8_t &b0, uint8_t &b1, uint8_t &b2,

                           uint8_t &b3, uint8_t &b4, uint8_t &b5, uint8_t &b6,

                           uint8_t &b7) {

    b7 = mask & (1 << 7);

    b6 = mask & (1 << 6);

    b5 = mask & (1 << 5);

    b4 = mask & (1 << 4);

    b3 = mask & (1 << 3);

    b2 = mask & (1 << 2);

    b1 = mask & (1 << 1);

    b0 = mask & 1;

  }


  /// b01 captures the lower 2 bits, b67 captures the higher 2 bits.

  /// Meant to be used with instructions such as mm256ShufflePs.

  template <unsigned b67, unsigned b45, unsigned b23, unsigned b01>


  static uint8_t shuffle() {

    static_assert(b01 <= 0x03, "overflow");

    static_assert(b23 <= 0x03, "overflow");

    static_assert(b45 <= 0x03, "overflow");

    static_assert(b67 <= 0x03, "overflow");

    return static_cast<uint8_t>((b67 << 6) | (b45 << 4) | (b23 << 2) | b01);

  }


  /// b01 captures the lower 2 bits, b67 captures the higher 2 bits.


  static void extractShuffle(uint8_t mask, uint8_t &b01, uint8_t &b23,

                             uint8_t &b45, uint8_t &b67) {

    b67 = (mask & (0x03 << 6)) >> 6;

    b45 = (mask & (0x03 << 4)) >> 4;

    b23 = (mask & (0x03 << 2)) >> 2;

    b01 = mask & 0x03;

  }


  /// b03 captures the lower 4 bits, b47 captures the higher 4 bits.

  /// Meant to be used with instructions such as mm256Permute2f128Ps.

  template <unsigned b47, unsigned b03>


  static uint8_t permute() {

    static_assert(b03 <= 0x0f, "overflow");

    static_assert(b47 <= 0x0f, "overflow");

    return static_cast<uint8_t>((b47 << 4) + b03);

  }


  /// b03 captures the lower 4 bits, b47 captures the higher 4 bits.


  static void extractPermute(uint8_t mask, uint8_t &b03, uint8_t &b47) {

    b47 = (mask & (0x0f << 4)) >> 4;

    b03 = mask & 0x0f;

  }


};


//===----------------------------------------------------------------------===//


// A set of patterns for specialized lowering of vector contraction

// operation to vector fused multiply and add (FMA) operation.

void populateVectorContractToFMAPatterns(RewritePatternSet &patterns);


// A set of patterns for lowering 32-bit packed vector contraction operations

// to their corresponding packed-type dot-product operations, ultimately

// targeting the relevant x86 LLVM intrinsics (e.g., BF16 and Int8).

void populateVectorContractToPackedTypeDotProductPatterns(

    RewritePatternSet &patterns);


// A set of patterns for lowering 32-bit packed BF16 vector contraction

// operations to vector fused multiply-add (FMA) operations, following

// the emulation-based approach using BF16 packed operations.

void populateVectorContractBF16ToFMAPatterns(RewritePatternSet &patterns);


// Performs forward scheduling of vector producer ops to minimize their live

// range by placing them at their earliest legal use site.

void populateSinkVectorProducerOpsPatterns(RewritePatternSet &patterns);


// Shuffles FMAs with x86 operations as operands such that FMAs are

// grouped with respect to odd/even packed index.

void populateShuffleVectorFMAOpsPatterns(RewritePatternSet &patterns);


// A set of patterns for lowering 32-bit packed vector contraction operations

// to their corresponding packed-type tiled dot-product operations, using

// AMX ultimately targeting the relevant x86 LLVM intrinsics (e.g., BF16 and

// Int8).

void populateVectorContractToAMXDotProductPatterns(RewritePatternSet &patterns);


//===----------------------------------------------------------------------===//

/// Helpers extracted from:

///   - clang/lib/Headers/avxintrin.h

///   - clang/test/CodeGen/X86/avx-builtins.c

///   - clang/test/CodeGen/X86/avx2-builtins.c

///   - clang/test/CodeGen/X86/avx-shuffle-builtins.c

/// as well as the Intel Intrinsics Guide

/// (https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html)

/// make it easier to just implement known good lowerings.

/// All intrinsics correspond 1-1 to the Intel definition.

//===----------------------------------------------------------------------===//


namespace avx2 {


namespace inline_asm {

//===----------------------------------------------------------------------===//

/// Methods in the inline_asm namespace  emit calls to LLVM::InlineAsmOp.

//===----------------------------------------------------------------------===//

/// If bit i of `mask` is zero, take f32@i from v1 else take it from v2.

Value mm256BlendPsAsm(ImplicitLocOpBuilder &b, Value v1, Value v2,

                      uint8_t mask);


} // namespace inline_asm


namespace intrin {

//===----------------------------------------------------------------------===//

/// Methods in the intrin namespace emulate clang's impl. of X86 intrinsics.

//===----------------------------------------------------------------------===//

/// Lower to vector.shuffle v1, v2, [0, 8, 1, 9, 4, 12, 5, 13].

Value mm256UnpackLoPs(ImplicitLocOpBuilder &b, Value v1, Value v2);


/// Lower to vector.shuffle v1, v2, [0, 8, 1, 9, 4, 12, 5, 13].

Value mm256UnpackHiPs(ImplicitLocOpBuilder &b, Value v1, Value v2);


///                            a  a   b   b  a  a   b   b

/// Take an 8 bit mask, 2 bit for each position of a[0, 3)  **and** b[0, 4):

///                                 0:127    |         128:255

///                            b01  b23  C8  D8  |  b01+4 b23+4 C8+4 D8+4

Value mm256ShufflePs(ImplicitLocOpBuilder &b, Value v1, Value v2, uint8_t mask);


// imm[0:1] out of imm[0:3] is:

//    0             1           2             3

// a[0:127] or a[128:255] or b[0:127] or b[128:255]    |

//          a[0:127] or a[128:255] or b[0:127] or b[128:255]

//             0             1           2             3

// imm[0:1] out of imm[4:7].

Value mm256Permute2f128Ps(ImplicitLocOpBuilder &b, Value v1, Value v2,

                          uint8_t mask);


/// If bit i of `mask` is zero, take f32@i from v1 else take it from v2.

Value mm256BlendPs(ImplicitLocOpBuilder &b, Value v1, Value v2, uint8_t mask);

} // namespace intrin


//===----------------------------------------------------------------------===//

/// Generic lowerings may either use intrin or inline_asm depending on needs.

//===----------------------------------------------------------------------===//

/// 4x8xf32-specific AVX2 transpose lowering.

void transpose4x8xf32(ImplicitLocOpBuilder &ib, MutableArrayRef<Value> vs);


/// 8x8xf32-specific AVX2 transpose lowering.

void transpose8x8xf32(ImplicitLocOpBuilder &ib, MutableArrayRef<Value> vs);


/// Structure to control the behavior of specialized AVX2 transpose lowering.


struct TransposeLoweringOptions {

  bool lower4x8xf32_ = false;


  TransposeLoweringOptions &lower4x8xf32(bool lower = true) {

    lower4x8xf32_ = lower;

    return *this;

  }


  bool lower8x8xf32_ = false;


  TransposeLoweringOptions &lower8x8xf32(bool lower = true) {

    lower8x8xf32_ = lower;

    return *this;

  }


};


/// Options for controlling specialized AVX2 lowerings.


struct LoweringOptions {

  /// Configure specialized vector lowerings.

  TransposeLoweringOptions transposeOptions;


  LoweringOptions &setTransposeOptions(TransposeLoweringOptions options) {

    transposeOptions = options;

    return *this;

  }


};


/// Insert specialized transpose lowering patterns.

void populateSpecializedTransposeLoweringPatterns(

    RewritePatternSet &patterns, LoweringOptions options = LoweringOptions(),

    int benefit = 10);


} // namespace avx2


} // namespace x86


/// Collect a set of patterns to lower X86 ops to ops that map to LLVM

/// intrinsics.

void populateX86LegalizeForLLVMExportPatterns(LLVMTypeConverter &converter,

                                              RewritePatternSet &patterns);


/// Configure the target to support lowering X86 ops to ops that map to

/// LLVM intrinsics.

void configureX86LegalizeForExportTarget(LLVMConversionTarget &target);


/// Register LLVM conversion interface for X86 dialect.

void registerConvertX86ToLLVMInterface(DialectRegistry &registry);


} // namespace mlir


#endif // MLIR_DIALECT_X86_TRANSFORMS_H

b
b
Return true if permutation is a valid permutation of the outer_dims_perm (case OuterOrInnerPerm::Oute...
Definition LinalgTransformOps.cpp:2136

target
target
Definition LinalgTransformOps.cpp:2139

options
static llvm::ManagedStatic< PassManagerOptions > options
Definition PassManagerOptions.cpp:89

Value.h

llvm::MutableArrayRef
Definition LLVM.h:54

mlir::ImplicitLocOpBuilder
ImplicitLocOpBuilder maintains a 'current location', allowing use of the create<> method without spec...
Definition Builders.h:632

mlir::LLVMConversionTarget
Derived class that automatically populates legalization information for different LLVM ops.
Definition ConversionTarget.h:17

mlir::LLVMTypeConverter
Conversion from types to the LLVM IR dialect.
Definition TypeConverter.h:35

mlir::RewritePatternSet
Definition PatternMatch.h:822

mlir::Value
This class represents an instance of an SSA value in the MLIR system, representing a computable value...
Definition Value.h:96

mlir::x86::avx2::inline_asm
Definition Transforms.h:127

mlir::x86::avx2::inline_asm::mm256BlendPsAsm
Value mm256BlendPsAsm(ImplicitLocOpBuilder &b, Value v1, Value v2, uint8_t mask)
Methods in the inline_asm namespace emit calls to LLVM::InlineAsmOp.
Definition AVXTranspose.cpp:30

mlir::x86::avx2::intrin
Definition Transforms.h:137

mlir::x86::avx2::intrin::mm256UnpackLoPs
Value mm256UnpackLoPs(ImplicitLocOpBuilder &b, Value v1, Value v2)
Methods in the intrin namespace emulate clang's impl. of X86 intrinsics.
Definition AVXTranspose.cpp:49

mlir::x86::avx2::intrin::mm256Permute2f128Ps
Value mm256Permute2f128Ps(ImplicitLocOpBuilder &b, Value v1, Value v2, uint8_t mask)
Definition AVXTranspose.cpp:79

mlir::x86::avx2::intrin::mm256BlendPs
Value mm256BlendPs(ImplicitLocOpBuilder &b, Value v1, Value v2, uint8_t mask)
If bit i of mask is zero, take f32@i from v1 else take it from v2.
Definition AVXTranspose.cpp:103

mlir::x86::avx2::intrin::mm256ShufflePs
Value mm256ShufflePs(ImplicitLocOpBuilder &b, Value v1, Value v2, uint8_t mask)
a a b b a a b b Take an 8 bit mask, 2 bit for each position of a[0, 3) and b[0, 4): 0:127 | 128:255 b...
Definition AVXTranspose.cpp:64

mlir::x86::avx2::intrin::mm256UnpackHiPs
Value mm256UnpackHiPs(ImplicitLocOpBuilder &b, Value v1, Value v2)
Lower to vector.shuffle v1, v2, [0, 8, 1, 9, 4, 12, 5, 13].
Definition AVXTranspose.cpp:55

mlir::x86::avx2
Helpers extracted from:
Definition Transforms.h:125

mlir::x86::avx2::transpose4x8xf32
void transpose4x8xf32(ImplicitLocOpBuilder &ib, MutableArrayRef< Value > vs)
Generic lowerings may either use intrin or inline_asm depending on needs.
Definition AVXTranspose.cpp:114

mlir::x86::avx2::transpose8x8xf32
void transpose8x8xf32(ImplicitLocOpBuilder &ib, MutableArrayRef< Value > vs)
8x8xf32-specific AVX2 transpose lowering.
Definition AVXTranspose.cpp:139

mlir::x86::avx2::populateSpecializedTransposeLoweringPatterns
void populateSpecializedTransposeLoweringPatterns(RewritePatternSet &patterns, LoweringOptions options=LoweringOptions(), int benefit=10)
Insert specialized transpose lowering patterns.
Definition AVXTranspose.cpp:287

mlir::x86
Definition X86TransformOps.h:25

mlir::x86::populateVectorContractToPackedTypeDotProductPatterns
void populateVectorContractToPackedTypeDotProductPatterns(RewritePatternSet &patterns)
Definition VectorContractToPackedTypeDotProduct.cpp:491

mlir::x86::populateSinkVectorProducerOpsPatterns
void populateSinkVectorProducerOpsPatterns(RewritePatternSet &patterns)
Definition SinkVectorProducerOps.cpp:144

mlir::x86::populateVectorContractToAMXDotProductPatterns
void populateVectorContractToAMXDotProductPatterns(RewritePatternSet &patterns)
Definition VectorContractToAMXDotProduct.cpp:1519

mlir::x86::populateVectorContractBF16ToFMAPatterns
void populateVectorContractBF16ToFMAPatterns(RewritePatternSet &patterns)
Definition VectorContractBF16ToFMA.cpp:507

mlir::x86::populateShuffleVectorFMAOpsPatterns
void populateShuffleVectorFMAOpsPatterns(RewritePatternSet &patterns)
Definition ShuffleVectorFMAOps.cpp:183

mlir::x86::populateVectorContractToFMAPatterns
void populateVectorContractToFMAPatterns(RewritePatternSet &patterns)
Definition VectorContractToFMA.cpp:140

mlir
Include the generated interface declarations.
Definition ABIRewriteContext.h:29

mlir::configureX86LegalizeForExportTarget
void configureX86LegalizeForExportTarget(LLVMConversionTarget &target)
Configure the target to support lowering X86 ops to ops that map to LLVM intrinsics.
Definition LegalizeForLLVMExport.cpp:50

mlir::populateX86LegalizeForLLVMExportPatterns
void populateX86LegalizeForLLVMExportPatterns(LLVMTypeConverter &converter, RewritePatternSet &patterns)
Collect a set of patterns to lower X86 ops to ops that map to LLVM intrinsics.
Definition LegalizeForLLVMExport.cpp:42

mlir::registerConvertX86ToLLVMInterface
void registerConvertX86ToLLVMInterface(DialectRegistry &registry)
Register LLVM conversion interface for X86 dialect.
Definition LegalizeForLLVMExport.cpp:68

mlir::x86::MaskHelper
Helper class to factor out the creation and extraction of masks from nibs.
Definition Transforms.h:24

mlir::x86::MaskHelper::extractPermute
static void extractPermute(uint8_t mask, uint8_t &b03, uint8_t &b47)
b03 captures the lower 4 bits, b47 captures the higher 4 bits.
Definition Transforms.h:76

mlir::x86::MaskHelper::blend
static uint8_t blend()
b0 captures the lowest bit, b7 captures the highest bit.
Definition Transforms.h:29

mlir::x86::MaskHelper::shuffle
static uint8_t shuffle()
b01 captures the lower 2 bits, b67 captures the higher 2 bits.
Definition Transforms.h:52

mlir::x86::MaskHelper::permute
static uint8_t permute()
b03 captures the lower 4 bits, b47 captures the higher 4 bits.
Definition Transforms.h:70

mlir::x86::MaskHelper::extractBlend
static void extractBlend(uint8_t mask, uint8_t &b0, uint8_t &b1, uint8_t &b2, uint8_t &b3, uint8_t &b4, uint8_t &b5, uint8_t &b6, uint8_t &b7)
b0 captures the lowest bit, b7 captures the highest bit.
Definition Transforms.h:37

mlir::x86::MaskHelper::extractShuffle
static void extractShuffle(uint8_t mask, uint8_t &b01, uint8_t &b23, uint8_t &b45, uint8_t &b67)
b01 captures the lower 2 bits, b67 captures the higher 2 bits.
Definition Transforms.h:60

mlir::x86::avx2::LoweringOptions
Options for controlling specialized AVX2 lowerings.
Definition Transforms.h:190

mlir::x86::avx2::LoweringOptions::transposeOptions
TransposeLoweringOptions transposeOptions
Configure specialized vector lowerings.
Definition Transforms.h:192

mlir::x86::avx2::LoweringOptions::setTransposeOptions
LoweringOptions & setTransposeOptions(TransposeLoweringOptions options)
Definition Transforms.h:193

mlir::x86::avx2::TransposeLoweringOptions
Structure to control the behavior of specialized AVX2 transpose lowering.
Definition Transforms.h:176

mlir::x86::avx2::TransposeLoweringOptions::lower8x8xf32
TransposeLoweringOptions & lower8x8xf32(bool lower=true)
Definition Transforms.h:183

mlir::x86::avx2::TransposeLoweringOptions::lower4x8xf32_
bool lower4x8xf32_
Definition Transforms.h:177

mlir::x86::avx2::TransposeLoweringOptions::lower8x8xf32_
bool lower8x8xf32_
Definition Transforms.h:182

mlir::x86::avx2::TransposeLoweringOptions::lower4x8xf32
TransposeLoweringOptions & lower4x8xf32(bool lower=true)
Definition Transforms.h:178