doxygen/XeGPUWgToSgDistribute_8cpp_source.html

 //===- XeGPUWgToSgDistribute.cpp - XeGPU Workgroup to Subgroup Pass -------===//

 //

 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

 // See https://llvm.org/LICENSE.txt for license information.

 // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

 //

 //===----------------------------------------------------------------------===//

 #include "mlir/Dialect/XeGPU/Transforms/Passes.h"


 #include "mlir/Dialect/Affine/Utils.h"

 #include "mlir/Dialect/Arith/Utils/Utils.h"

 #include "mlir/Dialect/GPU/IR/GPUDialect.h"

 #include "mlir/Dialect/Index/IR/IndexDialect.h"

 #include "mlir/Dialect/Index/IR/IndexOps.h"

 #include "mlir/Dialect/MemRef/IR/MemRef.h"

 #include "mlir/Dialect/Utils/IndexingUtils.h"

 #include "mlir/Dialect/XeGPU/IR/XeGPU.h"

 #include "mlir/Dialect/XeGPU/Transforms/Transforms.h"

 #include "mlir/Transforms/DialectConversion.h"


 namespace mlir {

 namespace xegpu {

 #define GEN_PASS_DEF_XEGPUWGTOSGDISTRIBUTE

 #include "mlir/Dialect/XeGPU/Transforms/Passes.h.inc"

 } // namespace xegpu

 } // namespace mlir


 using namespace mlir;


 namespace {


 /// This pattern transforms the CreateNdDescOp to create a subgroup descriptor

 /// from a workgroup descriptor. It replaces the offsets and sizes with

 /// appropriate values for the subgroup.

 /// It uses round-robin assignment to distribute the work to the subgroups.

 /// Following create_nd_desc operation:,

 ///    %tdesc = xegpu.create_nd_tdesc %src[0, 0] : memref<24x24xf32>

 ///       -> !xegpu.tensor_desc<24x24xf32, #xegpu.layout<sg_layout = [4, 4],

 ///           sg_data = [2, 2], lane_layout = [2, 2], lane_data = [1, 1]>>

 /// is converted to 9 subgroup level operations based on the sg_layout &

 /// sg_data:

 ///    %tdesc = xegpu.create_nd_tdesc %src[off1, off2] : memref<24x24xf32> ->

 ///           !xegpu.tensor_desc<2x2xf32, #xegpu.layout<lane_layout = [2, 2],

 ///           lane_data = [1, 1]>>

 ///

 /// The sg_layout and sg_data attributes are dropped after the pass as they are

 /// no longer needed.

 ///

 /// 24x24 matrix distribution example:

 /// sg_layout = [4, 4], sg_data = [2, 2]

 /// Each 8x8 matrix within the 24x24 matrix is called a distribution unit.

 /// dist_unit_shape = [8, 8] --> sg_layout[i] * sg_data[i]

 ///

 /// +------------------------+

 /// | 8x8 | 8x8 | 8x8 |      <- 3 tiles across

 /// |-----+-----+-----|

 /// | 8x8 | 8x8 | 8x8 |      <- 3 tiles down

 /// |-----+-----+-----|

 /// | 8x8 | 8x8 | 8x8 |

 /// +------------------------+

 ///

 /// Each 8x8 tile is further subdivided among subgroups:

 /// +------------------------+

 /// | 2x2 2x2 2x2 2x2 |  <- 4 subgroups across (each handles 2 columns)

 /// | 2x2 2x2 2x2 2x2 |  <- 4 subgroups down (each handles 2 rows)

 /// | 2x2 2x2 2x2 2x2 |

 /// | 2x2 2x2 2x2 2x2 |

 /// +------------------------+

 ///

 /// Since the 24x24 matrix is divided into 8x8 distribution units, there will be

 /// 9 distribution units (3x3) in total. Hence the 9 subgroup level operations.


 /// The pass currently has entire distribution logic in the WgToSgCreateNdOp

 /// pattern and all the other ops just follow.

 /// TODO: Decouple the distribution logic from WgToSgCreateNdOp for all the

 /// ops in the pass.

 struct WgToSgCreateNdOp : public OpConversionPattern<xegpu::CreateNdDescOp> {

   using OpConversionPattern<xegpu::CreateNdDescOp>::OpConversionPattern;


   // Calculate offset for each subgroup

   SmallVector<OpFoldResult>

   calculateGlobalOffsets(ConversionPatternRewriter &rewriter, Location loc,

                          const SmallVector<OpFoldResult> &originalOffsets,

                          const SmallVector<Value> &localOffset,

                          const SmallVector<int64_t> &distUnitBaseAddr,

                          const SmallVector<int64_t> &distUnitShape) const {

     assert(localOffset.size() == distUnitBaseAddr.size() &&

            "localOffset and distUnitBaseAddr must have the same rank");


     SmallVector<OpFoldResult> globalOffsets(originalOffsets.begin(),

                                             originalOffsets.end());

     size_t rank = localOffset.size();

     for (size_t i = 0; i < rank; ++i) {

       size_t dimIdx = originalOffsets.size() - rank + i;

       Value constOffset =

           rewriter.create<arith::ConstantIndexOp>(loc, distUnitBaseAddr[i]);

       Value offset =

           rewriter.createOrFold<index::AddOp>(loc, localOffset[i], constOffset);

       Value modValue =

           rewriter.create<arith::ConstantIndexOp>(loc, distUnitShape[i]);

       Value offsetMod =

           rewriter.createOrFold<index::RemUOp>(loc, offset, modValue);

       Value origOffset = getValueOrCreateConstantIndexOp(

           rewriter, loc, originalOffsets[dimIdx]);

       Value globalOffset =

           rewriter.createOrFold<index::AddOp>(loc, origOffset, offsetMod);

       globalOffsets[dimIdx] = globalOffset;

     }


     return globalOffsets;

   }


   LogicalResult

   matchAndRewrite(xegpu::CreateNdDescOp op, OneToNOpAdaptor adaptor,

                   ConversionPatternRewriter &rewriter) const override {

     Location loc = op.getLoc();

     MLIRContext *ctx = op.getContext();

     xegpu::TensorDescType tdescTy = op.getType();

     auto layout = dyn_cast<xegpu::LayoutAttr>(tdescTy.getLayout());

     if (!layout)

       return failure();

     Type elemTy = tdescTy.getElementType();

     ArrayRef<int64_t> wgShape = tdescTy.getShape();

     // sgLayout must be present for workgroup-level distribution.

     SmallVector<int64_t> sgLayout;

     if (auto sgLayoutAttr = layout.getSgLayout())

       sgLayout = llvm::to_vector_of<int64_t>(sgLayoutAttr.asArrayRef());

     else

       return rewriter.notifyMatchFailure(

           op, "sgLayout attribute is required in layout");


     SmallVector<int64_t> sgShape;

     if (auto sgDataAttr = layout.getSgData()) {

       sgShape = llvm::to_vector_of<int64_t>(sgDataAttr.asArrayRef());

     } else {

       assert(wgShape.size() == sgLayout.size() &&

              "sgLayout and wgShape must have the same rank");

       sgShape.reserve(wgShape.size());

       for (size_t i = 0; i < wgShape.size(); ++i) {

         assert(sgLayout[i] != 0 && "sgLayout elements must be non-zero");

         sgShape.push_back(wgShape[i] / sgLayout[i]);

       }

     }


     // TODO : Handle order attribute

     // Get the subgroup ID

     auto linearSgId =

         rewriter.create<gpu::SubgroupIdOp>(loc, /*upper_bound=*/nullptr);


     // Create constants for layout dimensions

     SmallVector<Value> sgLayoutDim(sgLayout.size());

     SmallVector<Value> sgDataDim(sgShape.size());


     for (size_t i = 0; i < sgLayout.size(); i++) {

       sgLayoutDim[i] =

           rewriter.create<arith::ConstantIndexOp>(loc, sgLayout[i]);

       sgDataDim[i] = rewriter.create<arith::ConstantIndexOp>(loc, sgShape[i]);

     }


     auto deLinearizeSgId =

         affine::delinearizeIndex(rewriter, loc, linearSgId, sgLayoutDim);

     if (failed(deLinearizeSgId))

       return failure();

     SmallVector<Value> sgIds = *deLinearizeSgId;


     // Calculate distribution unit shape and local offsets for subgroup

     SmallVector<int64_t> distUnitShape(sgLayout.size());

     SmallVector<Value> localOffset(sgLayout.size());

     for (size_t i = 0; i < sgLayout.size(); i++) {

       distUnitShape[i] = std::min(sgLayout[i] * sgShape[i], wgShape[i]);

       localOffset[i] =

           rewriter.createOrFold<index::MulOp>(loc, sgIds[i], sgDataDim[i]);

     }


     SmallVector<OpFoldResult> originalOffsets = op.getMixedOffsets();


     xegpu::TensorDescType newTdescTy =

         xegpu::TensorDescType::get(ctx, sgShape, elemTy, tdescTy.getEncoding(),

                                    layout.dropSgLayoutAndData());

     SmallVector<Value> newCreateNdOps;

     for (SmallVector<int64_t> distUnitBaseAddr :

          StaticTileOffsetRange(wgShape, distUnitShape)) {

       SmallVector<OpFoldResult> globalOffsets =

           calculateGlobalOffsets(rewriter, loc, originalOffsets, localOffset,

                                  distUnitBaseAddr, distUnitShape);


       auto newCreateNdOp = rewriter.create<xegpu::CreateNdDescOp>(

           loc, newTdescTy, op.getSource(), globalOffsets, op.getMixedSizes(),

           op.getMixedStrides());

       newCreateNdOps.push_back(newCreateNdOp);

     }


     rewriter.replaceOpWithMultiple(op, {newCreateNdOps});

     return success();

   }

 };


 /// This pattern transforms the LoadNdOp to load subgroup data.

 struct WgToSgLoadNdOp : public OpConversionPattern<xegpu::LoadNdOp> {

   using OpConversionPattern<xegpu::LoadNdOp>::OpConversionPattern;

   LogicalResult

   matchAndRewrite(xegpu::LoadNdOp op, OneToNOpAdaptor adaptor,

                   ConversionPatternRewriter &rewriter) const override {

     SmallVector<Value> newLoadOps;

     for (auto src : adaptor.getTensorDesc()) {

       xegpu::TensorDescType tdescTy =

           dyn_cast<xegpu::TensorDescType>(src.getType());

       ArrayRef<int64_t> srcShape = tdescTy.getShape();

       VectorType newResTy = VectorType::get(srcShape, tdescTy.getElementType());

       auto newLoadOp = rewriter.create<xegpu::LoadNdOp>(op.getLoc(), newResTy,

                                                         src, op->getAttrs());

       newLoadOps.push_back(newLoadOp);

     }

     rewriter.replaceOpWithMultiple(op, {newLoadOps});

     return mlir::success();

   }

 };


 /// This pattern transforms the StoreNdOp to store to a subgroup descriptor

 /// It creates a StoreNdOp op to store the updated values to the new subgroup

 /// src tensor descriptors.

 struct WgToSgStoreNdOp : public OpConversionPattern<xegpu::StoreNdOp> {

   using OpConversionPattern<xegpu::StoreNdOp>::OpConversionPattern;

   LogicalResult

   matchAndRewrite(xegpu::StoreNdOp op, OneToNOpAdaptor adaptor,

                   ConversionPatternRewriter &rewriter) const override {

     for (auto [v, t] : llvm::zip(adaptor.getValue(), adaptor.getTensorDesc()))

       rewriter.create<xegpu::StoreNdOp>(op.getLoc(), v, t, op.getL1HintAttr(),

                                         op.getL2HintAttr(), op.getL3HintAttr());


     rewriter.eraseOp(op);

     return success();

   }

 };


 /// This pattern transforms the UpdateNdOffsetOp to update the offsets of a

 /// subgroup descriptor. It creates an UpdateNdOffsetOp op to update the

 /// offsets of the new subgroup src tensor descriptors.

 struct WgToSgUpdateNdOffsetOp

     : public OpConversionPattern<xegpu::UpdateNdOffsetOp> {

   using OpConversionPattern<xegpu::UpdateNdOffsetOp>::OpConversionPattern;

   LogicalResult

   matchAndRewrite(xegpu::UpdateNdOffsetOp op, OneToNOpAdaptor adaptor,

                   ConversionPatternRewriter &rewriter) const override {

     llvm::SmallVector<Value> newUpdateTileOffsetOps;

     for (auto tDesc : adaptor.getTensorDesc()) {

       auto newUpdateTileOffsetOp = rewriter.create<xegpu::UpdateNdOffsetOp>(

           op.getLoc(), tDesc.getType(), tDesc, op.getOffsets(),

           op.getConstOffsets());

       newUpdateTileOffsetOps.push_back(newUpdateTileOffsetOp);

     }


     rewriter.replaceOpWithMultiple(op, {newUpdateTileOffsetOps});

     return success();

   }

 };


 /// This pattern transforms the DpasOp to work at subgroup level.

 struct WgToSgDpasOp : public OpConversionPattern<xegpu::DpasOp> {

   using OpConversionPattern<xegpu::DpasOp>::OpConversionPattern;

   LogicalResult

   matchAndRewrite(xegpu::DpasOp op, OneToNOpAdaptor adaptor,

                   ConversionPatternRewriter &rewriter) const override {

     Location loc = op.getLoc();

     VectorType resultTy = op.getResult().getType();

     if (resultTy.getRank() != 2)

       return failure();


     auto originalLayout =

         llvm::dyn_cast_or_null<xegpu::LayoutAttr>(op->getAttr("layout"));

     if (!originalLayout)

       return failure();


     SmallVector<Value> newDpasOps;

     size_t i = 0;

     for (auto aVec : adaptor.getLhs()) {

       for (auto bVec : adaptor.getRhs()) {

         llvm::SmallVector<Value> operands({aVec, bVec});

         Value tmpC;

         if (op.getAcc()) {

           tmpC = adaptor.getAcc()[i++];

           operands.push_back(tmpC);

         }


         ArrayRef<int64_t> aVecShape =

             llvm::cast<VectorType>(aVec.getType()).getShape();

         ArrayRef<int64_t> bVecShape =

             llvm::cast<VectorType>(bVec.getType()).getShape();

         VectorType resTy = VectorType::get({aVecShape[0], bVecShape[1]},

                                            resultTy.getElementType());

         tmpC = rewriter.create<xegpu::DpasOp>(

             loc, resTy, operands,

             llvm::ArrayRef<NamedAttribute>(

                 {"layout_result_0", originalLayout.dropSgLayoutAndData()}));

         newDpasOps.push_back(tmpC);

       }

     }

     rewriter.replaceOpWithMultiple(op, {newDpasOps});

     return success();

   }

 };


 /// This pattern transforms the PrefetchNdOp to prefetch the subgroup data.

 struct WgToSgPrefetchNdOp : public OpConversionPattern<xegpu::PrefetchNdOp> {

   using OpConversionPattern<xegpu::PrefetchNdOp>::OpConversionPattern;

   LogicalResult

   matchAndRewrite(xegpu::PrefetchNdOp op, OneToNOpAdaptor adaptor,

                   ConversionPatternRewriter &rewriter) const override {

     for (auto src : adaptor.getTensorDesc())

       rewriter.create<xegpu::PrefetchNdOp>(op.getLoc(), TypeRange(), src,

                                            op->getAttrs());

     rewriter.eraseOp(op);

     return success();

   }

 };


 } // namespace


 namespace mlir {

 namespace xegpu {

 void populateXeGPUWgToSgDistributePatterns(RewritePatternSet &patterns) {

   patterns.add<WgToSgCreateNdOp, WgToSgLoadNdOp, WgToSgStoreNdOp,

                WgToSgUpdateNdOffsetOp, WgToSgDpasOp, WgToSgPrefetchNdOp>(

       patterns.getContext());

 }

 } // namespace xegpu

 } // namespace mlir


 namespace {

 struct XeGPUWgToSgDistributePass

     : public xegpu::impl::XeGPUWgToSgDistributeBase<XeGPUWgToSgDistributePass> {

   void runOnOperation() override;

 };

 } // namespace


 void XeGPUWgToSgDistributePass::runOnOperation() {

   MLIRContext *ctx = &getContext();

   RewritePatternSet patterns(ctx);

   ConversionTarget target(*ctx);


   auto getTensorDescType = [](Operation *op) -> xegpu::TensorDescType {

     if (auto createOp = dyn_cast<xegpu::CreateNdDescOp>(op))

       return createOp.getType();

     if (auto loadOp = dyn_cast<xegpu::LoadNdOp>(op))

       return loadOp.getTensorDescType();

     if (auto storeOp = dyn_cast<xegpu::StoreNdOp>(op))

       return storeOp.getTensorDescType();

     if (auto updateOp = dyn_cast<xegpu::UpdateNdOffsetOp>(op))

       return updateOp.getType();

     if (auto prefetchOp = dyn_cast<xegpu::PrefetchNdOp>(op))

       return prefetchOp.getTensorDescType();

     return xegpu::TensorDescType();

   };


   auto isLegal = [&](xegpu::LayoutAttr layout) -> bool {

     return !layout || layout.getSgLayout() == nullptr;

   };


   target.addDynamicallyLegalOp<xegpu::CreateNdDescOp, xegpu::LoadNdOp,

                                xegpu::StoreNdOp, xegpu::UpdateNdOffsetOp,

                                xegpu::PrefetchNdOp>([=](Operation *op) -> bool {

     auto tdescTy = getTensorDescType(op);

     auto layout = dyn_cast_or_null<xegpu::LayoutAttr>(tdescTy.getLayout());

     return isLegal(layout);

   });


   target.addDynamicallyLegalOp<xegpu::DpasOp>([=](xegpu::DpasOp op) -> bool {

     auto layout = dyn_cast_or_null<xegpu::LayoutAttr>(op->getAttr("layout"));

     return isLegal(layout);

   });


   target.markUnknownOpDynamicallyLegal([](Operation *) { return true; });


   xegpu::populateXeGPUWgToSgDistributePatterns(patterns);

   if (failed(

           applyPartialConversion(getOperation(), target, std::move(patterns))))

     return signalPassFailure();

 }

DialectConversion.h

Utils.h

Utils.h

Passes.h

GPUDialect.h

IndexDialect.h

IndexOps.h

getContext
static MLIRContext * getContext(OpFoldResult val)
Definition: IndexingUtils.cpp:295

IndexingUtils.h

min
static Value min(ImplicitLocOpBuilder &builder, Value value, Value bound)
Definition: PolynomialApproximation.cpp:206

XeGPU.h

llvm::ArrayRef
Definition: LLVM.h:48

llvm::SmallVector
Definition: LLVM.h:72

mlir::ConversionPatternRewriter
This class implements a pattern rewriter for use with ConversionPatterns.
Definition: DialectConversion.h:726

mlir::ConversionPatternRewriter::replaceOpWithMultiple
void replaceOpWithMultiple(Operation *op, SmallVector< SmallVector< Value >> &&newValues)
Replace the given operation with the new value ranges.
Definition: DialectConversion.cpp:1669

mlir::ConversionPatternRewriter::eraseOp
void eraseOp(Operation *op) override
PatternRewriter hook for erasing a dead operation.
Definition: DialectConversion.cpp:1680

mlir::ConversionTarget
This class describes a specific conversion target.
Definition: DialectConversion.h:868

mlir::Location
This class defines the main interface for locations in MLIR and acts as a non-nullable wrapper around...
Definition: Location.h:76

mlir::MLIRContext
MLIRContext is the top-level object for a collection of MLIR operations.
Definition: MLIRContext.h:60

mlir::OpBuilder::createOrFold
void createOrFold(SmallVectorImpl< Value > &results, Location location, Args &&...args)
Create an operation of specific op type at the current insertion point, and immediately try to fold i...
Definition: Builders.h:517

mlir::OpBuilder::create
Operation * create(const OperationState &state)
Creates an operation given the fields represented as an OperationState.
Definition: Builders.cpp:453

mlir::OpConversionPattern
OpConversionPattern is a wrapper around ConversionPattern that allows for matching and rewriting agai...
Definition: DialectConversion.h:583

mlir::Operation
Operation is the basic unit of execution within MLIR.
Definition: Operation.h:88

mlir::RewritePatternSet
Definition: PatternMatch.h:772

mlir::RewriterBase::notifyMatchFailure
std::enable_if_t<!std::is_convertible< CallbackT, Twine >::value, LogicalResult > notifyMatchFailure(Location loc, CallbackT &&reasonCallback)
Used to notify the listener that the IR failed to be rewritten because of a match failure,...
Definition: PatternMatch.h:682

mlir::StaticTileOffsetRange
A range-style iterator that allows for iterating over the offsets of all potential tiles of size tile...
Definition: IndexingUtils.h:376

mlir::TypeRange
This class provides an abstraction over the various different ranges of value types.
Definition: TypeRange.h:37

mlir::Type
Instances of the Type class are uniqued, have an immutable identifier and an optional mutable compone...
Definition: Types.h:74

mlir::Value
This class represents an instance of an SSA value in the MLIR system, representing a computable value...
Definition: Value.h:96

MemRef.h

Transforms.h

mlir::affine::delinearizeIndex
FailureOr< SmallVector< Value > > delinearizeIndex(OpBuilder &b, Location loc, Value linearIndex, ArrayRef< Value > basis, bool hasOuterBound=true)
Generate the IR to delinearize linearIndex given the basis and return the multi-index.
Definition: Utils.cpp:1978

mlir::xegpu::populateXeGPUWgToSgDistributePatterns
void populateXeGPUWgToSgDistributePatterns(RewritePatternSet &patterns)
Definition: XeGPUWgToSgDistribute.cpp:321

mlir
Include the generated interface declarations.
Definition: LocalAliasAnalysis.h:20

mlir::patterns
const FrozenRewritePatternSet & patterns
Definition: GreedyPatternRewriteDriver.h:283

mlir::getValueOrCreateConstantIndexOp
Value getValueOrCreateConstantIndexOp(OpBuilder &b, Location loc, OpFoldResult ofr)
Converts an OpFoldResult to a Value.
Definition: Utils.cpp:112

mlir::get
auto get(MLIRContext *context, Ts &&...params)
Helper method that injects context only if needed, this helps unify some of the attribute constructio...
Definition: BytecodeImplementation.h:509

mlir::applyPartialConversion
LogicalResult applyPartialConversion(ArrayRef< Operation * > ops, const ConversionTarget &target, const FrozenRewritePatternSet &patterns, ConversionConfig config=ConversionConfig())
Below we define several entry points for operation conversion.
Definition: DialectConversion.cpp:3383