doxygen/TilingInterfaceImpl_8cpp_source.html

 //===- TilingInterfaceImpl.cpp - Implementation of TilingInterface -------===//

 //

 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

 // See https://llvm.org/LICENSE.txt for license information.

 // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

 //

 //===----------------------------------------------------------------------===//


 #include "mlir/Dialect/Linalg/Transforms/TilingInterfaceImpl.h"


 #include "mlir/Analysis/SliceAnalysis.h"

 #include "mlir/Dialect/Affine/IR/AffineOps.h"

 #include "mlir/Dialect/Affine/Utils.h"

 #include "mlir/Dialect/Arith/IR/Arith.h"

 #include "mlir/Dialect/Arith/Utils/Utils.h"

 #include "mlir/Dialect/Linalg/IR/Linalg.h"

 #include "mlir/Dialect/Linalg/Utils/Utils.h"

 #include "mlir/Dialect/MemRef/IR/MemRef.h"

 #include "mlir/Dialect/Tensor/IR/Tensor.h"

 #include "mlir/Dialect/Utils/IndexingUtils.h"

 #include "mlir/Dialect/Utils/StaticValueUtils.h"

 #include "mlir/Dialect/Utils/StructuredOpsUtils.h"

 #include "mlir/IR/BuiltinTypeInterfaces.h"

 #include "mlir/Interfaces/TilingInterface.h"

 #include "mlir/Interfaces/ValueBoundsOpInterface.h"

 #include "llvm/Support/Debug.h"

 #include <optional>


 #define DEBUG_TYPE "linalg-tiling-interface-impl"


 using namespace mlir;

 using namespace mlir::linalg;


 //===----------------------------------------------------------------------===//

 // Utility methods for implementation of Tiling Interface for Linalg ops

 //===----------------------------------------------------------------------===//


 /// Return the SSA values that represent the data point accessed using a given

 /// `indexingMap` for a given point in the iteration space represented by `ivs`.

 static SmallVector<Value> getIndicesForAccess(OpBuilder &b, Location loc,

                                               AffineMap indexingMap,

                                               ValueRange ivs) {

   SmallVector<Value> indices;

   indices.reserve(indexingMap.getNumResults());

   for (auto result : indexingMap.getResults()) {

     AffineMap m = AffineMap::get(indexingMap.getNumDims(),

                                  indexingMap.getNumSymbols(), result);

     Value v = affine::AffineApplyOp::create(b, loc, m, ivs);

     indices.push_back(v);

   }

   return indices;

 }


 /// Method to inline the payload of a `linalgOp` given the iteration space

 /// point and values for the arguments of the payload.

 static LogicalResult inlinePayload(OpBuilder &b, LinalgOp linalgOp,

                                    ValueRange ivs, ValueRange argValues) {

   Block *body = linalgOp.getBlock();

   IRMapping map;

   map.map(body->getArguments(), argValues);

   for (auto &op : body->without_terminator()) {

     if (auto indexOp = dyn_cast<IndexOp>(&op)) {

       map.map(indexOp.getResult(), ivs[indexOp.getDim()]);

       continue;

     }

     b.clone(op, map);

   }


   Operation *terminator = body->getTerminator();

   Location loc = terminator->getLoc();

   for (const auto &operand : llvm::enumerate(terminator->getOperands())) {

     Value toStore = map.lookupOrDefault(operand.value());

     OpOperand *storeInto = linalgOp.getDpsInitOperand(operand.index());

     auto indices = getIndicesForAccess(

         b, loc, linalgOp.getMatchingIndexingMap(storeInto), ivs);

     memref::StoreOp::create(b, loc, toStore,

                             linalgOp.getDpsInitOperand(operand.index())->get(),

                             indices);

   }

   return success();

 }


 //===----------------------------------------------------------------------===//

 // External Model for implementing `TilingInterface` for `LinalgOp`s.

 //===----------------------------------------------------------------------===//


 namespace {

 /// External model implementation of TilingInterface for LinalgOps. An external

 /// model implementation is used for now till the use of `TilingInterface` is

 /// on-par with the current Linalg tiling + fusion patterns. Once it is

 /// maybe possible to move this into the op-definition (though there are

 /// advantages to leaving it as an external model)

 template <typename LinalgOpTy>

 struct LinalgOpTilingInterface

     : public TilingInterface::ExternalModel<LinalgOpTilingInterface<LinalgOpTy>,

                                             LinalgOpTy> {

   /// Return the loop iterator type.

   SmallVector<utils::IteratorType> getLoopIteratorTypes(Operation *op) const {

     LinalgOpTy concreteOp = cast<LinalgOpTy>(op);

     return concreteOp.getIteratorTypesArray();

   }


   /// Return the iteration domain range.

   SmallVector<Range> getIterationDomain(Operation *op, OpBuilder &b) const {

     OpBuilder::InsertionGuard g(b);

     b.setInsertionPoint(op);

     Location loc = op->getLoc();

     LinalgOp linalgOp = cast<LinalgOp>(op);

     SmallVector<OpFoldResult> allShapesSizes =

         linalgOp.createFlatListOfOperandDims(b, loc);

     AffineMap map = linalgOp.getShapesToLoopsMap();


     return llvm::to_vector(

         llvm::map_range(map.getResults(), [&](AffineExpr loopExpr) {

           OpFoldResult ofr = affine::makeComposedFoldedAffineApply(

               b, loc, loopExpr, allShapesSizes);

           return Range{b.getIndexAttr(0), ofr, b.getIndexAttr(1)};

         }));

   }


   /// Instantiate the tiled implementation of the operation.

   FailureOr<TilingResult>

   getTiledImplementation(Operation *op, OpBuilder &b,

                          ArrayRef<OpFoldResult> offsets,

                          ArrayRef<OpFoldResult> sizes) const {

     // Leave the `sizeBounds` value empty. That is only needed when the `sizes`

     // specified could lead to out of bounds accesses.

     Location loc = op->getLoc();

     LinalgOp linalgOp = cast<LinalgOp>(op);

     SmallVector<Value> valuesToTile = linalgOp->getOperands();

     SmallVector<Value> tiledOperands = makeTiledShapes(

         b, loc, linalgOp, valuesToTile, offsets, sizes, {}, true);

     SmallVector<Operation *> generatedSlices = llvm::map_to_vector(

         llvm::make_filter_range(

             tiledOperands,

             [](Value v) -> bool {

               return isa_and_nonnull<tensor::ExtractSliceOp, memref::SubViewOp>(

                   v.getDefiningOp());

             }),

         [](Value v) -> Operation * { return v.getDefiningOp(); });


     SmallVector<Type> resultTensorTypes =

         getTensorOutputTypes(linalgOp, tiledOperands);


     Operation *tiledOp = clone(b, linalgOp, resultTensorTypes, tiledOperands);

     offsetIndices(b, cast<LinalgOp>(tiledOp), offsets);


     return TilingResult{

         {tiledOp}, SmallVector<Value>(tiledOp->getResults()), generatedSlices};

   }


   /// Utility to fetch the offsets and sizes when applied as per the indexing

   /// map of the linalg op. This helps in fusing the linalg op as a consumer of

   /// a given slice op.

   static LogicalResult

   getMappedOffsetAndSize(LinalgOp linalgOp, OpBuilder &b,

                          ArrayRef<AffineMap> indexingMaps,

                          ArrayRef<SmallVector<OpFoldResult>> allOffsets,

                          ArrayRef<SmallVector<OpFoldResult>> allSizes,

                          SmallVectorImpl<OpFoldResult> &mappedOffsetsVec,

                          SmallVectorImpl<OpFoldResult> &mappedSizesVec) {

     DenseMap<unsigned, OpFoldResult> mappedOffsets, mappedSizes;


     for (auto [indexingMap, offsets, sizes] :

          llvm::zip_equal(indexingMaps, allOffsets, allSizes)) {

       for (auto [resultExpr, offset, size] :

            llvm::zip_equal(indexingMap.getResults(), offsets, sizes)) {

         auto dimExpr = dyn_cast<AffineDimExpr>(resultExpr);

         if (!dimExpr)

           continue;

         unsigned position = dimExpr.getPosition();

         auto it = mappedOffsets.find(position);

         if (it != mappedOffsets.end()) {

           OpFoldResult seenOffset = it->second;

           OpFoldResult seenSize = mappedSizes.lookup(position);

           if (seenOffset != offset || seenSize != size) {

             LLVM_DEBUG({

               llvm::dbgs() << "inconsistent iteration space mapping from "

                               "offsets/sizes of operands/results";

             });

             return failure();

           }

         } else {

           mappedOffsets[position] = offset;

           mappedSizes[position] = size;

         }

       }

     }


     // Aggregate from the given operand offsets and sizes, or default to

     // iteration space values.

     SmallVector<Range> iterationDomain =

         cast<TilingInterface>(linalgOp.getOperation()).getIterationDomain(b);

     mappedOffsetsVec.resize(iterationDomain.size());

     mappedSizesVec.resize(iterationDomain.size());

     for (auto [index, domain] : llvm::enumerate(iterationDomain)) {

       auto it = mappedOffsets.find(index);

       if (it != mappedOffsets.end()) {

         mappedOffsetsVec[index] = it->second;

         mappedSizesVec[index] = mappedSizes.lookup(index);

         continue;

       }

       mappedOffsetsVec[index] = domain.offset;

       mappedSizesVec[index] = domain.size;

     }

     return success();

   }


   /// Method to return the position of the result tile computed by the tiled

   /// operation.

   LogicalResult getIterationDomainTileFromOperandTiles(

       Operation *op, OpBuilder &b, ArrayRef<unsigned> operandNumbers,

       ArrayRef<SmallVector<OpFoldResult>> allOffsets,

       ArrayRef<SmallVector<OpFoldResult>> allSizes,

       SmallVectorImpl<OpFoldResult> &iterDomainOffsets,

       SmallVectorImpl<OpFoldResult> &iterDomainSizes) const {

     auto linalgOp = cast<LinalgOp>(op);


     std::optional<SmallVector<OpFoldResult>> iterationSpaceOffsets,

         iterationSpaceSizes;

     SmallVector<AffineMap> indexingMaps =

         llvm::map_to_vector(operandNumbers, [&](unsigned operandNumber) {

           OpOperand &opOperand = linalgOp->getOpOperand(operandNumber);

           return linalgOp.getMatchingIndexingMap(&opOperand);

         });

     if (failed(getMappedOffsetAndSize(linalgOp, b, indexingMaps, allOffsets,

                                       allSizes, iterDomainOffsets,

                                       iterDomainSizes))) {

       return failure();

     }

     return success();

   }


   /// Return the details of the output tile generated by the tiled

   /// implementation.

   LogicalResult

   getResultTilePosition(Operation *op, OpBuilder &b, unsigned resultNumber,

                         ArrayRef<OpFoldResult> offsets,

                         ArrayRef<OpFoldResult> sizes,

                         SmallVector<OpFoldResult> &resultOffsets,

                         SmallVector<OpFoldResult> &resultSizes) const {

     Location loc = op->getLoc();

     LinalgOp linalgOp = cast<LinalgOp>(op);


     AffineExpr d0;

     bindDims(b.getContext(), d0);

     SmallVector<OpFoldResult> subShapeSizes =

         llvm::to_vector(llvm::map_range(sizes, [&](OpFoldResult ofr) {

           return affine::makeComposedFoldedAffineApply(b, loc, d0 - 1, ofr);

         }));


     OpOperand *outOperand = linalgOp.getDpsInitOperand(resultNumber);

     SliceParameters sliceParams = computeSliceParameters(

         b, loc, outOperand->get(), sizes,

         linalgOp.getMatchingIndexingMap(outOperand), offsets,

         /*ubs*/ {}, subShapeSizes, true);

     resultOffsets = sliceParams.offsets;

     resultSizes = sliceParams.sizes;

     return success();

   }


   LogicalResult getIterationDomainTileFromResultTile(

       Operation *op, OpBuilder &b, unsigned resultNumber,

       ArrayRef<OpFoldResult> offsets, ArrayRef<OpFoldResult> sizes,

       SmallVectorImpl<OpFoldResult> &iterDomainOffsets,

       SmallVectorImpl<OpFoldResult> &iterDomainSizes) const {

     auto linalgOp = cast<LinalgOp>(op);


     // Check that the indexing map used for the output is a projected

     // permutation. This could be relaxed with a more general approach that can

     // map the offsets and sizes from the result to iteration space tiles

     // (filling in full extent for dimensions not used to access the result).

     AffineMap indexingMap =

         linalgOp.getIndexingMapMatchingResult(op->getResult(resultNumber));

     if (!indexingMap.isProjectedPermutation()) {

       return op->emitOpError(

           "unhandled tiled implementation generation when result is not "

           "accessed using a permuted projection");

     }


     SmallVector<OpFoldResult> allOffsets = llvm::to_vector(offsets);

     SmallVector<OpFoldResult> allSizes = llvm::to_vector(sizes);

     auto status =

         getMappedOffsetAndSize(linalgOp, b, indexingMap, {allOffsets},

                                {allSizes}, iterDomainOffsets, iterDomainSizes);

     (void)status;

     assert(succeeded(status) && "unexpected error in offset calculation");

     return success();

   }


   FailureOr<TilingResult>

   generateResultTileValue(Operation *op, OpBuilder &b, unsigned resultNumber,

                           ArrayRef<OpFoldResult> offsets,

                           ArrayRef<OpFoldResult> sizes) const {

     SmallVector<OpFoldResult> mappedOffsets, mappedSizes;

     if (failed(getIterationDomainTileFromResultTile(

             op, b, resultNumber, offsets, sizes, mappedOffsets, mappedSizes))) {

       return failure();

     }

     auto tilingInterfaceOp = cast<TilingInterface>(op);

     FailureOr<TilingResult> tilingResult =

         tilingInterfaceOp.getTiledImplementation(b, mappedOffsets, mappedSizes);


     if (failed(tilingResult))

       return failure();


     if (tilingResult->tiledOps.size() != 1)

       return op->emitOpError("failed to generate tiled implementation");


     return TilingResult{

         tilingResult->tiledOps,

         SmallVector<Value>{tilingResult->tiledValues[resultNumber]},

         tilingResult->generatedSlices};

   }


   /// Method to generate the tiled implementation of an operation from the tile

   /// of the operand.

   FailureOr<TilingResult> getTiledImplementationFromOperandTiles(

       Operation *op, OpBuilder &b, ArrayRef<unsigned> operandNumbers,

       ArrayRef<SmallVector<OpFoldResult>> allOffsets,

       ArrayRef<SmallVector<OpFoldResult>> allSizes) const {

     SmallVector<OpFoldResult> mappedOffsets, mappedSizes;

     if (failed(getIterationDomainTileFromOperandTiles(

             op, b, operandNumbers, allOffsets, allSizes, mappedOffsets,

             mappedSizes))) {

       return failure();

     }

     return getTiledImplementation(op, b, mappedOffsets, mappedSizes);

   }


   LogicalResult generateScalarImplementation(Operation *op, OpBuilder &builder,

                                              Location loc,

                                              ValueRange ivs) const {

     auto linalgOp = cast<LinalgOp>(op);

     if (!linalgOp.hasPureBufferSemantics())

       return op->emitOpError("expected operation to have buffer semantics");


     SmallVector<Value> indexedValues;

     indexedValues.reserve(linalgOp->getNumOperands());

     Location linalgOpLoc = op->getLoc();

     /// Load the data corresponding to the block arguments that

     /// represent input operands.

     for (OpOperand &operand : linalgOp->getOpOperands()) {

       if (!linalgOp.payloadUsesValueFromOperand(&operand)) {

         indexedValues.push_back(nullptr);

         continue;

       }

       if (linalgOp.isScalar(&operand)) {

         indexedValues.push_back(operand.get());

         continue;

       }

       SmallVector<Value> indices = getIndicesForAccess(

           builder, linalgOpLoc, linalgOp.getMatchingIndexingMap(&operand), ivs);

       Value load =

           memref::LoadOp::create(builder, linalgOpLoc, operand.get(), indices);

       indexedValues.push_back(load);

     }


     /// Inline the op payload and store the result.

     return inlinePayload(builder, linalgOp, ivs, indexedValues);

   }

 };


 //===----------------------------------------------------------------------===//

 // External Model for implementing `PartialReductionInterface` for `LinalgOp`s.

 //===----------------------------------------------------------------------===//


 /// In a given set vector, get the position of a particular element.

 std::optional<int> getPositionIn(const llvm::SetVector<unsigned> &reductionDims,

                                  unsigned value) {

   for (auto [index, reductionDim] : llvm::enumerate(reductionDims)) {

     if (reductionDim == value) {

       return index;

     }

   }

   return std::nullopt;

 }


 /// Return an AffineMaps to use for the `outs` operands of the linalg op

 /// generated for partial results. The new AffineMap is the AffineMap of the

 /// untiled op with reduction dimensions appended at end in order in which they

 /// were specified during tiling.

 static SmallVector<AffineMap>

 getPartialResultAffineMaps(LinalgOp linalgOp,

                            const SetVector<unsigned> &reductionDims) {

   auto partialReductionMaps = llvm::map_to_vector(

       linalgOp.getDpsInitsMutable(), [&](OpOperand &opOperand) {

         AffineMap map = linalgOp.getMatchingIndexingMap(&opOperand);

         for (auto redPos : reductionDims) {

           map =

               map.insertResult(getAffineDimExpr(redPos, linalgOp.getContext()),

                                map.getNumResults());

         }

         return map;

       });

   return partialReductionMaps;

 }


 struct InitSliceInfo {

   SmallVector<int64_t> resultShape;

   SmallVector<OpFoldResult> offsets;

   SmallVector<OpFoldResult> sizes;

   SmallVector<OpFoldResult> strides;

 };


 /// Return the result shape, offsets, sizes and strides of the slice of the

 /// `initValue` to use as the destination of the partial reduction op generated

 /// with outer reduction strategy.

 static InitSliceInfo getInitSliceInfoForOuterReduction(

     MLIRContext *context, ArrayRef<OpFoldResult> offsets,

     ArrayRef<OpFoldResult> sizes, const SetVector<unsigned> &reductionDims,

     ArrayRef<OpFoldResult> splitReductionIvs, AffineMap partialReductionMap) {

   int64_t initRank = partialReductionMap.getNumResults();

   SmallVector<OpFoldResult> initOffsets, initSizes;

   Attribute zero = IntegerAttr::get(IndexType::get(context), 0);

   Attribute one = IntegerAttr::get(IndexType::get(context), 1);

   SmallVector<OpFoldResult> initStrides(initRank, one);

   for (AffineExpr dimExpr : partialReductionMap.getResults()) {

     unsigned dim = cast<AffineDimExpr>(dimExpr).getPosition();

     if (reductionDims.contains(dim)) {

       initOffsets.push_back(zero);

     } else {

       initOffsets.push_back(offsets[dim]);

     }

     initSizes.push_back(sizes[dim]);

   }

   SmallVector<int64_t> resultShape;

   std::tie(resultShape, std::ignore) = decomposeMixedValues(initSizes);

   return {resultShape, initOffsets, initSizes, initStrides};

 }


 /// Return the result shape, offsets, sizes and strides of the slice of the

 /// `initValue` to use as destination of the partial reduction op generated with

 /// outer parallel strategy.

 static InitSliceInfo getInitSliceInfoForOuterParallel(

     MLIRContext *context, ArrayRef<OpFoldResult> offsets,

     ArrayRef<OpFoldResult> sizes, const SetVector<unsigned> &reductionDims,

     ArrayRef<OpFoldResult> splitReductionIvs, AffineMap partialReductionMap) {

   int64_t initRank = partialReductionMap.getNumResults();

   SmallVector<OpFoldResult> initOffsets, initSizes;

   Attribute one = IntegerAttr::get(IndexType::get(context), 1);

   SmallVector<OpFoldResult> initStrides(initRank, one);

   SmallVector<OpFoldResult> resultShape;

   for (AffineExpr dimExpr : partialReductionMap.getResults()) {

     unsigned dim = cast<AffineDimExpr>(dimExpr).getPosition();

     if (std::optional<unsigned> dimPos = getPositionIn(reductionDims, dim)) {

       initOffsets.push_back(splitReductionIvs[dimPos.value()]);

       initSizes.push_back(one);

     } else {

       initOffsets.push_back(offsets[dim]);

       initSizes.push_back(sizes[dim]);

       resultShape.push_back(sizes[dim]);

     }

   }

   SmallVector<int64_t> staticShapes;

   std::tie(staticShapes, std::ignore) = decomposeMixedValues(resultShape);

   return {staticShapes, initOffsets, initSizes, initStrides};

 }


 /// Return the result shape, offsets, sizes and strides of the slice of the

 /// `initValue` to use as destination of the partial reduction op.

 static InitSliceInfo getInitSliceInfo(MLIRContext *context,

                                       ReductionTilingStrategy strategy,

                                       ArrayRef<OpFoldResult> offsets,

                                       ArrayRef<OpFoldResult> sizes,

                                       const SetVector<unsigned> &reductionDims,

                                       ArrayRef<OpFoldResult> splitReductionIvs,

                                       AffineMap partialReductionMap) {

   if (strategy == ReductionTilingStrategy::PartialReductionOuterReduction) {

     return getInitSliceInfoForOuterReduction(context, offsets, sizes,

                                              reductionDims, splitReductionIvs,

                                              partialReductionMap);

   }

   assert(strategy == ReductionTilingStrategy::PartialReductionOuterParallel &&

          "unexpected ReductionTilingStrategy");

   return getInitSliceInfoForOuterParallel(context, offsets, sizes,

                                           reductionDims, splitReductionIvs,

                                           partialReductionMap);

 }


 /// External model implementation of PartialReductionInterface for

 /// LinalgOps.

 template <typename LinalgOpTy>

 struct LinalgOpPartialReductionInterface

     : public PartialReductionOpInterface::ExternalModel<

           LinalgOpPartialReductionInterface<LinalgOpTy>, LinalgOpTy> {

   FailureOr<SmallVector<Value>> generateInitialTensorForPartialReduction(

       Operation *op, OpBuilder &b, Location loc, ArrayRef<OpFoldResult> sizes,

       const SetVector<unsigned> &reductionDims) const {

     auto linalgOp = cast<LinalgOp>(op);


     OpBuilder::InsertionGuard guard(b);

     if (linalgOp.hasPureBufferSemantics())

       return op->emitOpError("expected operation to have tensor semantics");


     SmallVector<AffineMap> partialResultMaps =

         getPartialResultAffineMaps(linalgOp, reductionDims);


     SmallVector<Value> inits;

     for (auto [initIdx, result, partialMap] :

          llvm::enumerate(linalgOp->getResults(), partialResultMaps)) {

       SmallVector<Operation *, 4> combinerOps;

       if (!matchReduction(linalgOp.getRegionOutputArgs(), initIdx,

                           combinerOps) ||

           combinerOps.size() != 1)

         return op->emitOpError("Failed to anaysis the reduction operation.");


       Operation *reductionOp = combinerOps[0];

       std::optional<TypedAttr> identity = arith::getNeutralElement(reductionOp);

       if (!identity.has_value())

         return op->emitOpError(

             "Failed to get an identity value for the reduction operation.");


       // Append the new partial result dimensions.

       SmallVector<OpFoldResult> partialResultShape;

       for (AffineExpr dimExpr : partialMap.getResults()) {

         auto dim = cast<AffineDimExpr>(dimExpr);

         partialResultShape.push_back(sizes[dim.getPosition()]);

       }


       Type elType = getElementTypeOrSelf(result.getType());

       Value emptyTensor =

           tensor::EmptyOp::create(b, loc, partialResultShape, elType);

       Value constantOp = arith::ConstantOp::create(b, loc, *identity);

       auto identityTensor =

           linalg::FillOp::create(b, loc, constantOp, emptyTensor);

       inits.push_back(identityTensor.getResult(0));

     }


     return inits;

   }


   FailureOr<TilingResult>

   tileToPartialReduction(Operation *op, OpBuilder &b, Location loc,

                          ReductionTilingStrategy tilingStrategy,

                          ValueRange init, ArrayRef<OpFoldResult> offsets,

                          ArrayRef<OpFoldResult> sizes,

                          const SetVector<unsigned> &reductionDims,

                          ArrayRef<OpFoldResult> splitReductionIvs) const {

     OpBuilder::InsertionGuard guard(b);

     auto linalgOp = cast<LinalgOp>(op);


     SmallVector<AffineMap> partialReductionMaps =

         getPartialResultAffineMaps(linalgOp, reductionDims);


     // Step 1. Extend init maps to have reduction dimension dims, since we

     // are converting them to parallel dimensions.

     SmallVector<AffineMap> newInitMaps;

     if (tilingStrategy ==

         ReductionTilingStrategy::PartialReductionOuterReduction) {

       newInitMaps = llvm::to_vector(partialReductionMaps);

     } else {

       newInitMaps = llvm::map_to_vector(

           linalgOp.getDpsInitsMutable(), [&](OpOperand &opOperand) {

             return linalgOp.getMatchingIndexingMap(&opOperand);

           });

     }


     // Step 2a: Extract a slice of the input operands.

     SmallVector<Value> tiledInputs = makeTiledShapes(

         b, loc, linalgOp, linalgOp.getDpsInputs(), offsets, sizes, {}, true);

     SmallVector<Operation *> generatedSlices = llvm::map_to_vector(

         llvm::make_filter_range(

             tiledInputs, [](Value v) -> bool { return v.getDefiningOp(); }),

         [](Value v) -> Operation * { return v.getDefiningOp(); });


     // Step 2b: Extract a slice of the init operands.

     SmallVector<Value, 1> tiledInits;

     for (auto [partialReductionMap, valueToTile] :

          llvm::zip_equal(partialReductionMaps, init)) {

       InitSliceInfo sliceInfo = getInitSliceInfo(

           b.getContext(), tilingStrategy, offsets, sizes, reductionDims,

           splitReductionIvs, partialReductionMap);

       auto valueToTileType = cast<RankedTensorType>(valueToTile.getType());

       RankedTensorType sliceResultType = RankedTensorType::get(

           sliceInfo.resultShape, valueToTileType.getElementType(),

           valueToTileType.getEncoding());

       auto sliceOp = tensor::ExtractSliceOp::create(

           b, loc, sliceResultType, valueToTile, sliceInfo.offsets,

           sliceInfo.sizes, sliceInfo.strides);

       tiledInits.push_back(sliceOp.getResult());

       generatedSlices.push_back(sliceOp);

     }


     // Update the indexing maps.

     SmallVector<AffineMap> newMaps = linalgOp.getIndexingMapsArray();

     for (auto [initOperand, newInitMap] :

          llvm::zip_equal(linalgOp.getDpsInitsMutable(), newInitMaps)) {

       int mapIdx = linalgOp.getIndexingMapIndex(&initOperand);

       newMaps[mapIdx] = newInitMap;

     }


     // Step 3. Change the reduction dim iterator types.

     SmallVector<utils::IteratorType> newIteratorTypes =

         linalgOp.getIteratorTypesArray();

     if (tilingStrategy ==

         ReductionTilingStrategy::PartialReductionOuterReduction) {

       for (int dim : reductionDims)

         newIteratorTypes[dim] = utils::IteratorType::parallel;

     }


     // Step 4. Create the new generic op.

     Operation *partialReductionOp;

     auto resultTypes = ValueRange(tiledInits).getTypes();

     if (tilingStrategy ==

         ReductionTilingStrategy::PartialReductionOuterReduction) {

       auto genericOp = GenericOp::create(b, loc, resultTypes, tiledInputs,

                                          tiledInits, newMaps, newIteratorTypes);

       IRMapping mapping;

       op->getRegion(0).cloneInto(&genericOp.getRegion(),

                                  genericOp.getRegion().begin(), mapping);

       partialReductionOp = genericOp.getOperation();

     } else {

       SmallVector<Value> operands = std::move(tiledInputs);

       llvm::append_range(operands, tiledInits);

       partialReductionOp = mlir::clone(b, op, resultTypes, operands);

     }

     return TilingResult{

         {partialReductionOp},

         llvm::map_to_vector(partialReductionOp->getResults(),

                             [](OpResult r) -> Value { return r; }),

         generatedSlices};

   }


   FailureOr<MergeResult>

   mergeReductions(Operation *op, OpBuilder &b, Location loc,

                   ValueRange partialReduce,

                   const SetVector<unsigned> &reductionDims) const {

     auto linalgOp = cast<LinalgOp>(op);

     SmallVector<AffineMap> partialReductionMaps =

         getPartialResultAffineMaps(linalgOp, reductionDims);


     // Permute the reduction dims as permuted by the partial result map.

     SmallVector<Operation *> mergeOperations;

     SmallVector<Value> replacements;

     for (auto [idx, init, partialResult, partialMap] : llvm::enumerate(

              linalgOp.getDpsInits(), partialReduce, partialReductionMaps)) {

       unsigned initIdx = idx;

       // linalg.reduce's iteration space is the tiled result's iteration space

       // (and not the tiled operation's iteration space). To account for this,

       // permute the reduction dimensions based on the partial result map of the

       // tiled result.

       SmallVector<int64_t> partialReductionDims;

       for (auto [resultNum, dimExpr] :

            llvm::enumerate(partialMap.getResults())) {

         unsigned dim = cast<AffineDimExpr>(dimExpr).getPosition();

         if (llvm::is_contained(reductionDims, dim)) {

           partialReductionDims.push_back(resultNum);

         }

       }


       auto reduction = linalg::ReduceOp::create(

           b, loc, partialResult, init, partialReductionDims,

           [&linalgOp, &initIdx](OpBuilder &b, Location loc, ValueRange inputs) {

             // Get the combiner op.

             SmallVector<Operation *, 4> combinerOps;

             matchReduction(linalgOp.getRegionOutputArgs(), initIdx,

                            combinerOps);

             Operation *clonedReductionOp = b.clone(*combinerOps[0]);

             // Combine the input at idx and output at numInits + idx.

             clonedReductionOp->setOperand(0, inputs[0]);

             clonedReductionOp->setOperand(1, inputs[1]);

             linalg::YieldOp::create(b, loc, clonedReductionOp->getResult(0));

           });


       mergeOperations.push_back(reduction);

       replacements.push_back(reduction->getResult(0));

     }


     return MergeResult{mergeOperations, replacements};

   }


   LogicalResult getPartialResultTilePosition(

       Operation *op, OpBuilder &b, unsigned resultNumber,

       ReductionTilingStrategy tilingStrategy, ArrayRef<OpFoldResult> offsets,

       ArrayRef<OpFoldResult> sizes, const SetVector<unsigned> &reductionDims,

       ArrayRef<OpFoldResult> splitReductionIvs,

       SmallVector<OpFoldResult> &resultOffsets,

       SmallVector<OpFoldResult> &resultSizes) const {

     auto linalgOp = cast<LinalgOp>(op);

     SmallVector<AffineMap> partialReductionMaps =

         getPartialResultAffineMaps(linalgOp, reductionDims);

     InitSliceInfo sliceInfo = getInitSliceInfo(

         b.getContext(), tilingStrategy, offsets, sizes, reductionDims,

         splitReductionIvs, partialReductionMaps[resultNumber]);

     std::swap(resultOffsets, sliceInfo.offsets);

     std::swap(resultSizes, sliceInfo.sizes);


     return success();

   }

 };


 template <typename OpTy>

 static SmallVector<Range> getPackUnPackIterationDomain(OpTy op,

                                                        OpBuilder &builder) {

   static_assert(llvm::is_one_of<OpTy, PackOp, UnPackOp>::value,

                 "applies to only pack or unpack operations");

   OpBuilder::InsertionGuard g(builder);

   int64_t rank = (std::is_same<OpTy, PackOp>::value) ? op.getSourceRank()

                                                      : op.getDestRank();

   OpFoldResult zero = builder.getIndexAttr(0);

   OpFoldResult one = builder.getIndexAttr(1);

   ReifiedRankedShapedTypeDims resultShape;

   (void)reifyResultShapes(builder, op, resultShape);

   SmallVector<Range> loopBounds(rank);

   for (auto dim : llvm::seq<int64_t>(0, rank)) {

     loopBounds[dim].offset = zero;

     loopBounds[dim].stride = one;

     loopBounds[dim].size = resultShape[0][dim];

   }

   return loopBounds;

 }


 static void applyPermToRange(SmallVector<OpFoldResult> &offsets,

                              SmallVector<OpFoldResult> &sizes,

                              ArrayRef<int64_t> permutation) {

   if (permutation.empty())

     return;

   applyPermutationToVector<OpFoldResult>(offsets, permutation);

   applyPermutationToVector<OpFoldResult>(sizes, permutation);

 }


 struct PackOpTiling

     : public TilingInterface::ExternalModel<PackOpTiling, linalg::PackOp> {


   SmallVector<utils::IteratorType> getLoopIteratorTypes(Operation *op) const {

     // Note that here we only consider untiled dimensions and outer tiled data

     // dimensions, the inner tiled data dimensions are materialized when

     // building the body of the operation.

     auto packOp = cast<PackOp>(op);

     SmallVector<utils::IteratorType> iteratorTypes(

         packOp.getSourceRank(), utils::IteratorType::parallel);

     return iteratorTypes;

   }


   SmallVector<Range> getIterationDomain(Operation *op, OpBuilder &b) const {

     return getPackUnPackIterationDomain<PackOp>(cast<PackOp>(op), b);

   }


   FailureOr<TilingResult>

   getTiledImplementation(Operation *op, OpBuilder &b,

                          ArrayRef<OpFoldResult> offsets,

                          ArrayRef<OpFoldResult> sizes) const {

     auto packOp = cast<PackOp>(op);

     Location loc = packOp.getLoc();


     // The tiling is applied on interchanged dimensions. We have to undo the

     // interchange to map sizes and offsets to the original input.

     int64_t inputRank = packOp.getSourceRank();

     SmallVector<OpFoldResult> origOffsets(offsets);

     SmallVector<OpFoldResult> origSizes(sizes);

     applyPermToRange(origOffsets, origSizes,

                      invertPermutationVector(packOp.getOuterDimsPerm()));


     DenseMap<int64_t, OpFoldResult> dimAndTileMapping =

         packOp.getDimAndTileMapping();

     SmallVector<OpFoldResult> srcDimValues =

         tensor::getMixedSizes(b, loc, packOp.getSource());

     SmallVector<OpFoldResult> inputIndices, inputSizes;

     for (auto dim : llvm::seq<int64_t>(0, inputRank)) {

       using AV = affine::AffineValueExpr;

       affine::AffineBuilder ab(b, loc);

       AffineExpr dim0, dim1, sym;

       bindDims(b.getContext(), dim0, dim1);

       bindSymbols(b.getContext(), sym);

       if (dimAndTileMapping.count(dim)) {

         // If the data dimension is tiled, the i-th index is the product of

         // offset_i and tile_i, and the i-th size is the product of sizes_i and

         // tile_i.

         auto avOffset = AV(dim0).bind(origOffsets[dim]);

         auto avSize = AV(dim0).bind(origSizes[dim]);

         auto avTileSize = AV(sym).bind(dimAndTileMapping[dim]);

         inputIndices.push_back(ab.mul(avOffset, avTileSize));

         inputSizes.push_back(ab.mul(avSize, avTileSize));

       } else {

         inputIndices.push_back(origOffsets[dim]);

         inputSizes.push_back(origSizes[dim]);

       }


       // Limit the size of the input operand for incomplete tiles.

       if (packOp.getPaddingValue()) {

         OpFoldResult dimSize = srcDimValues[dim];

         auto avDimSize = AV(dim0).bind(dimSize);

         auto avInputIdx = AV(dim1).bind(inputIndices.back());

         inputSizes.back() =

             ab.min({inputSizes.back(), ab.sub(avDimSize, avInputIdx)});

       }

     }


     auto oneAttr = b.getI64IntegerAttr(1);

     SmallVector<OpFoldResult> strides(inputRank, oneAttr);


     SmallVector<Value> tiledOperands;

     auto sourceSlice = tensor::ExtractSliceOp::create(

         b, loc, packOp.getSource(), inputIndices, inputSizes, strides);

     tiledOperands.push_back(sourceSlice);


     SmallVector<OpFoldResult> outputOffsets, outputSizes;

     if (failed(getResultTilePosition(op, b, 0, offsets, sizes, outputOffsets,

                                      outputSizes)))

       return {};


     strides.append(packOp.getDestRank() - inputRank, oneAttr);

     auto outSlice = tensor::ExtractSliceOp::create(

         b, loc, packOp.getDest(), outputOffsets, outputSizes, strides);

     tiledOperands.push_back(outSlice);


     if (auto val = packOp.getPaddingValue())

       tiledOperands.push_back(val);

     for (auto tile : packOp.getInnerTiles())

       tiledOperands.push_back(tile);


     Operation *tiledPackOp = PackOp::create(

         b, loc, TypeRange{outSlice.getType()}, tiledOperands, op->getAttrs());


     return TilingResult{

         {tiledPackOp},

         SmallVector<Value>(tiledPackOp->getResults()),

         llvm::to_vector(ArrayRef<Operation *>{sourceSlice, outSlice})};

   }


   LogicalResult

   getResultTilePosition(Operation *op, OpBuilder &b, unsigned resultNumber,

                         ArrayRef<OpFoldResult> offsets,

                         ArrayRef<OpFoldResult> sizes,

                         SmallVector<OpFoldResult> &resultOffsets,

                         SmallVector<OpFoldResult> &resultSizes) const {

     // The iteration domain is over outer dimensions of packed layout. In this

     // context, the outer dimensions of `resultOffsets` are `offsets`. The

     // inner dimensions of `resultOffsets` are zeros because tiling is not

     // applied to them.

     auto packOp = cast<PackOp>(op);

     int64_t inputRank = packOp.getSourceRank();

     int64_t outputRank = packOp.getDestRank();

     auto zeroAttr = b.getI64IntegerAttr(0);

     resultOffsets.assign(offsets.begin(), offsets.end());

     resultOffsets.append(outputRank - inputRank, zeroAttr);


     ReifiedRankedShapedTypeDims outputShape;

     (void)reifyResultShapes(b, packOp, outputShape);

     resultSizes.assign(sizes.begin(), sizes.end());

     for (auto dataTileDim : llvm::seq<unsigned>(inputRank, outputRank))

       resultSizes.push_back(outputShape[0][dataTileDim]);


     return success();

   }


   FailureOr<TilingResult>

   generateResultTileValue(Operation *op, OpBuilder &b, unsigned resultNumber,

                           ArrayRef<OpFoldResult> offsets,

                           ArrayRef<OpFoldResult> sizes) const {

     auto packOp = cast<PackOp>(op);

     int64_t numTiles = packOp.getInnerDimsPos().size();


     // tensor.pack op is fusible (as a producer) only if full inner tiles are

     // iterated or inner dims are not tiled. Otherwise, it will generate a

     // sequence of non-trivial ops (for partial tiles).

     for (auto offset : offsets.take_back(numTiles))

       if (!isZeroInteger(offset))

         return failure();


     for (auto iter :

          llvm::zip_equal(packOp.getMixedTiles(), sizes.take_back(numTiles)))

       if (!isEqualConstantIntOrValue(std::get<0>(iter), std::get<1>(iter)))

         return failure();


     FailureOr<TilingResult> tilingResult = getTiledImplementation(

         op, b, offsets.drop_back(numTiles), sizes.drop_back(numTiles));

     if (failed(tilingResult))

       return failure();

     return tilingResult.value();

   }


   /// Method to return the position of iteration domain tile computed by the

   /// tiled operation. In current `tensor.pack` context, the `resultOffsets` and

   /// `resultSizes` only cover outer dimensions.

   LogicalResult getIterationDomainTileFromOperandTiles(

       Operation *op, OpBuilder &b, ArrayRef<unsigned> operandNumbers,

       ArrayRef<SmallVector<OpFoldResult>> allOffsets,

       ArrayRef<SmallVector<OpFoldResult>> allSizes,

       SmallVectorImpl<OpFoldResult> &resultOffsets,

       SmallVectorImpl<OpFoldResult> &resultSizes) const {

     if (operandNumbers.size() != 1 || operandNumbers[0] != 0) {

       LLVM_DEBUG(

           { llvm::dbgs() << "unsupported operands for consumer fusion"; });

       return failure();

     }


     ArrayRef<OpFoldResult> offsets(allOffsets[0]);

     ArrayRef<OpFoldResult> sizes(allSizes[0]);

     auto packOp = cast<PackOp>(op);

     Location loc = packOp.getLoc();

     SmallVector<OpFoldResult> outerDimOffsets, outerDimSizes;

     DenseMap<int64_t, OpFoldResult> dimAndTileMapping =

         packOp.getDimAndTileMapping();

     SmallVector<int64_t> outerShapeWithoutTranspose(

         packOp.getDestType().getShape().take_front(packOp.getSourceRank()));

     if (!packOp.getOuterDimsPerm().empty()) {

       applyPermutationToVector(

           outerShapeWithoutTranspose,

           invertPermutationVector(packOp.getOuterDimsPerm()));

     }

     for (auto dim : llvm::seq<int64_t>(packOp.getSourceRank())) {

       if (dimAndTileMapping.count(dim)) {

         FailureOr<int64_t> cstTileSize =

             ValueBoundsConstraintSet::computeConstantBound(

                 presburger::BoundType::UB, sizes[dim],

                 /*stopCondition=*/nullptr, /*closedUB=*/true);

         std::optional<int64_t> cstInnerSize =

             getConstantIntValue(dimAndTileMapping[dim]);


         // If a dimension is not tiled, it is always valid to fuse the pack op,

         // even if the op has padding semantics. Because it always generates a

         // full slice along the dimension. The tile sizes are for unpacked

         // domain, i.e., `srcDimSize`, so `tileSize < srcDimSize` means that the

         // dimension is tiled.

         // TODO: It could be untiled if the `srcDimSize` is dynamic. It is a

         // hard check to determine if a dimension is tiled or not.

         int64_t srcDimSize = packOp.getSourceType().getDimSize(dim);

         int64_t destDimSize = outerShapeWithoutTranspose[dim];

         bool isTiled = failed(cstTileSize) ||

                        ShapedType::isDynamic(srcDimSize) ||

                        cstTileSize.value() < srcDimSize;

         if (!isTiled) {

           outerDimOffsets.push_back(offsets[dim]);

           if (ShapedType::isStatic(destDimSize)) {

             outerDimSizes.push_back(b.getIndexAttr(destDimSize));

           } else {

             outerDimSizes.push_back(

                 b.createOrFold<tensor::DimOp>(loc, packOp.getDest(), dim));

           }

           continue;

         }


         // Currently fusing `packOp` as consumer only expects perfect tiling

         // scenario because even if without padding semantic, the `packOp` may

         // also yield incomplete tiles. E.g. tensor<30xf32> -> tensor<5x6xf32>,

         // where the `tileSize` from operand of `packOp` is 5, which is not

         // exactly divided by `innerTile`(=6) of `packOp`. As the result:

         // 1. the first slice is extracted from (0) to (4) and inserted into

         // (0,0)~(0,4) at first row.

         // 2. the second slice is extracted from (5) to (9) and SHOULD BE

         // respectively inserted into two rows with different length, including

         // first row: (0,5) and second row (1,0)~(1,3). It is hard to coordinate

         // them, thus adding below constraint to bypass them temporarily. In

         // another word, we can only support tiling with consumer if the tile

         // size for the producer is a multiple of the inner tile size for the

         // packed dimensions at this moment.

         if ((failed(cstTileSize) || !cstInnerSize ||

              *cstTileSize % *cstInnerSize != 0))

           return failure();


         using AV = affine::AffineValueExpr;

         affine::AffineBuilder ab(b, loc);

         AffineExpr dim0, sym;

         bindDims(b.getContext(), dim0);

         bindSymbols(b.getContext(), sym);

         auto avOffset = AV(dim0).bind(offsets[dim]);

         auto avSize = AV(dim0).bind(sizes[dim]);

         auto avTileSize = AV(sym).bind(dimAndTileMapping[dim]);

         outerDimOffsets.push_back(ab.floor(avOffset, avTileSize));

         outerDimSizes.push_back(ab.ceil(avSize, avTileSize));

       } else {

         outerDimOffsets.push_back(offsets[dim]);

         outerDimSizes.push_back(sizes[dim]);

       }

     }

     applyPermToRange(outerDimOffsets, outerDimSizes, packOp.getOuterDimsPerm());

     resultOffsets = outerDimOffsets;

     resultSizes = outerDimSizes;

     return success();

   }


   /// Method to return the tiled implementation of tensor.pack as a consumer.

   FailureOr<TilingResult> getTiledImplementationFromOperandTiles(

       Operation *op, OpBuilder &b, ArrayRef<unsigned> operandNumbers,

       ArrayRef<SmallVector<OpFoldResult>> allOffsets,

       ArrayRef<SmallVector<OpFoldResult>> allSizes) const {

     if (operandNumbers.size() != 1 || operandNumbers[0] != 0) {

       LLVM_DEBUG(

           { llvm ::dbgs() << "unhandled operands for consumer fusion"; });

       return failure();

     }


     ArrayRef<OpFoldResult> offsets(allOffsets[0]);

     ArrayRef<OpFoldResult> sizes(allSizes[0]);


     auto packOp = cast<PackOp>(op);

     Location loc = packOp.getLoc();


     int64_t inputRank = packOp.getSourceRank();

     auto oneAttr = b.getI64IntegerAttr(1);

     SmallVector<OpFoldResult> strides(inputRank, oneAttr);


     SmallVector<Value> tiledOperands;

     auto sourceSlice = tensor::ExtractSliceOp::create(

         b, loc, packOp.getSource(), offsets, sizes, strides);

     tiledOperands.push_back(sourceSlice);


     SmallVector<OpFoldResult> outerDimOffsets, outerDimSizes;

     if (failed(getIterationDomainTileFromOperandTiles(

             op, b, operandNumbers, allOffsets, allSizes, outerDimOffsets,

             outerDimSizes)))

       return failure();


     SmallVector<OpFoldResult> outputOffsets, outputSizes;

     if (failed(getResultTilePosition(op, b, 0, outerDimOffsets, outerDimSizes,

                                      outputOffsets, outputSizes)))

       return failure();


     strides.append(packOp.getDestRank() - inputRank, oneAttr);

     auto outSlice = tensor::ExtractSliceOp::create(

         b, loc, packOp.getDest(), outputOffsets, outputSizes, strides);

     tiledOperands.push_back(outSlice);


     if (auto val = packOp.getPaddingValue())

       tiledOperands.push_back(val);

     for (auto tile : packOp.getInnerTiles())

       tiledOperands.push_back(tile);


     Operation *tiledPackOp = PackOp::create(

         b, loc, TypeRange{outSlice.getType()}, tiledOperands, op->getAttrs());


     return TilingResult{

         {tiledPackOp},

         SmallVector<Value>(tiledPackOp->getResults()),

         llvm::to_vector(ArrayRef<Operation *>{sourceSlice, outSlice})};

   }

 };


 struct UnpackTileDimInfo {

   bool isAlignedToInnerTileSize;

   OpFoldResult sourceOffset;

   OpFoldResult sourceSize;

   OpFoldResult resultOffset;

   OpFoldResult destExpandedSize;

 };


 /// Returns the needed information for tiling unpack op on `tileDim` with given

 /// `tileOffset` and `tileSize`. For more details, see the comment of the

 /// `getTiledImplementation`.

 static UnpackTileDimInfo getUnpackTileDimInfo(OpBuilder &b, UnPackOp unpackOp,

                                               int64_t tileDim,

                                               OpFoldResult tileOffset,

                                               OpFoldResult tileSize) {

   UnpackTileDimInfo info;

   Attribute zeroAttr = b.getIndexAttr(0);

   Attribute oneAttr = b.getIndexAttr(1);

   DenseMap<int64_t, OpFoldResult> dimAndTileMapping =

       unpackOp.getDimAndTileMapping();

   // The dimension is not one of packed data dimension.

   if (!dimAndTileMapping.count(tileDim)) {

     info.isAlignedToInnerTileSize = true;

     info.sourceOffset = tileOffset;

     info.sourceSize = tileSize;

     info.resultOffset = zeroAttr;

     info.destExpandedSize = tileSize;

     return info;

   }


   Location loc = unpackOp.getLoc();

   using AV = affine::AffineValueExpr;

   affine::AffineBuilder ab(b, loc);

   AffineExpr dim0, dim1, sym0;

   bindDims(b.getContext(), dim0, dim1);

   bindSymbols(b.getContext(), sym0);


   OpFoldResult innerTileSize = dimAndTileMapping[tileDim];


   info.isAlignedToInnerTileSize = false;

   FailureOr<int64_t> cstSize = ValueBoundsConstraintSet::computeConstantBound(

       presburger::BoundType::UB, tileSize,

       /*stopCondition=*/nullptr, /*closedUB=*/true);

   std::optional<int64_t> cstInnerSize = getConstantIntValue(innerTileSize);

   if (!failed(cstSize) && cstInnerSize) {

     if (*cstSize % *cstInnerSize == 0)

       info.isAlignedToInnerTileSize = true;


     // If the tiling size equals to the inner tiling size, the outer dims are

     // always 1.

     if (*cstInnerSize == *cstSize) {

       auto lhs = AV(dim0).bind(tileOffset);

       auto rhs = AV(dim1).bind(innerTileSize);

       info.sourceOffset = ab.floor(lhs, rhs);

       info.sourceSize = oneAttr;

       info.resultOffset = zeroAttr;

       info.destExpandedSize = tileSize;

       return info;

     }

   }


   if (info.isAlignedToInnerTileSize) {

     info.sourceOffset =

         ab.floor(AV(dim0).bind(tileOffset), AV(dim1).bind(innerTileSize));

     info.resultOffset = zeroAttr;

     info.destExpandedSize = tileSize;


     // The ceilDiv is needed here because there could be incomplete tile even

     // it is perfect tiling cases. E.g.,

     //   %0 = unpack tensor<33x2xf32> into tensor<64xf32>

     // If the tiling size is 32, there will be 3 tiles. Two of them have

     // size=32; one of them have size=2. The size is represented using

     // affine_min op; we need ceilDiv.

     info.sourceSize =

         ab.ceil(AV(dim0).bind(tileSize), AV(dim1).bind(innerTileSize));

     return info;

   }


   affine::DivModValue firstCoord = affine::getDivMod(

       b, loc, getValueOrCreateConstantIndexOp(b, loc, tileOffset),

       getValueOrCreateConstantIndexOp(b, loc, innerTileSize));

   OpFoldResult tileExclusiveBound =

       ab.add(AV(dim0).bind(tileOffset), AV(dim1).bind(tileSize));

   affine::DivModValue lastCoord = affine::getDivMod(

       b, loc,

       getValueOrCreateConstantIndexOp(

           b, loc,

           ab.sub(AV(dim0).bind(tileExclusiveBound), AV(dim1).bind(oneAttr))),

       getValueOrCreateConstantIndexOp(b, loc, innerTileSize));


   OpFoldResult lengthMinusOne = ab.sub(AV(dim0).bind(lastCoord.quotient),

                                        AV(dim1).bind(firstCoord.quotient));

   info.sourceSize =

       ab.add(AV(dim0).bind(lengthMinusOne), AV(dim1).bind(oneAttr));

   info.sourceOffset = firstCoord.quotient;

   info.resultOffset = firstCoord.remainder;

   // Do not create an Affine ops for expanded size because the affine op is too

   // complicated which would trigger an issue in affine ops simplification.

   info.destExpandedSize = b.createOrFold<arith::MulIOp>(

       loc, getValueOrCreateConstantIndexOp(b, loc, info.sourceSize),

       getValueOrCreateConstantIndexOp(b, loc, innerTileSize));

   return info;

 }


 struct UnPackOpTiling

     : public TilingInterface::ExternalModel<UnPackOpTiling, linalg::UnPackOp> {


   SmallVector<utils::IteratorType> getLoopIteratorTypes(Operation *op) const {

     auto unpackOp = cast<UnPackOp>(op);

     SmallVector<utils::IteratorType> iteratorTypes(

         unpackOp.getDestRank(), utils::IteratorType::parallel);

     return iteratorTypes;

   }


   SmallVector<Range> getIterationDomain(Operation *op, OpBuilder &b) const {

     return getPackUnPackIterationDomain<UnPackOp>(cast<UnPackOp>(op), b);

   }


   /// There are two cases in tiling unpack ops. If the tiling size is aligned to

   /// the inner tile size, the corresponding tiles of source are all complete.

   /// Otherwise, there are in-complete tiles. We will need to expand the slice

   /// of source for getting complete tiles. The tiled unpack op unpacks more

   /// data from source, so We'll need an extract_slice op to shift and truncate

   /// the output.

   /// Take Nn_to_N as an example. Say that N=32, n=8, and tiling_size=15. The

   /// coordinates of second tile (i.e., result[15..31]) are

   /// [(1, 7), (2, 0,), (2, 1) ... (3, 6), (3, 7)]. The first row and the last

   /// row are incomplete tiles. To represent the unpack op, we have to complete

   /// the rows. I.e., the input coordinates would start with (1, 0); end with

   /// (3, 7). In this context, the tiled unpack produces a (3 * n) elements

   /// because there are 3 rows in total. Follow by a tensor.extract_slice op, we

   /// can get the actual result.

   FailureOr<TilingResult>

   getTiledImplementation(Operation *op, OpBuilder &b,

                          ArrayRef<OpFoldResult> offsets,

                          ArrayRef<OpFoldResult> sizes) const {

     auto unpackOp = cast<UnPackOp>(op);

     int64_t srcRank = unpackOp.getSourceRank();

     int64_t destRank = unpackOp.getDestRank();

     int64_t numInnerTiles = srcRank - destRank;

     Location loc = unpackOp.getLoc();


     // The perfect tiling case indicates that the tiling sizes are multiple of

     // inner_tile_size. In this context, no extra data is needed when

     // representing the tiled unpack op.

     bool isPerfectTilingCase = true;

     Attribute oneAttr = b.getIndexAttr(1);

     SmallVector<OpFoldResult> sliceSrcStrides(destRank, oneAttr);

     SmallVector<OpFoldResult> sliceSrcIndices, sliceSrcSizes;

     SmallVector<OpFoldResult> destExpandedSizes, resultOffsetsFromDest;

     for (auto dim : llvm::seq<int64_t>(0, destRank)) {

       UnpackTileDimInfo info =

           getUnpackTileDimInfo(b, unpackOp, dim, offsets[dim], sizes[dim]);

       if (!info.isAlignedToInnerTileSize)

         isPerfectTilingCase = false;

       sliceSrcIndices.push_back(info.sourceOffset);

       sliceSrcSizes.push_back(info.sourceSize);

       destExpandedSizes.push_back(info.destExpandedSize);

       resultOffsetsFromDest.push_back(info.resultOffset);

     }


     // The tiling is applied on destination dimensions. We have to apply the

     // interchange on source dimensions if outer_dims_perm is set.

     applyPermToRange(sliceSrcIndices, sliceSrcSizes,

                      unpackOp.getOuterDimsPerm());

     Attribute zeroAttr = b.getIndexAttr(0);

     sliceSrcIndices.append(numInnerTiles, zeroAttr);

     sliceSrcSizes.append(unpackOp.getMixedTiles());

     sliceSrcStrides.append(numInnerTiles, oneAttr);

     SmallVector<Operation *> generatedSlices;

     tensor::ExtractSliceOp sliceSource = tensor::ExtractSliceOp::create(

         b, loc, unpackOp.getSource(), sliceSrcIndices, sliceSrcSizes,

         sliceSrcStrides);

     generatedSlices.push_back(sliceSource);


     SmallVector<OpFoldResult> destStrides(destRank, oneAttr);

     Value sliceDest;

     if (isPerfectTilingCase) {

       auto destSliceOp = tensor::ExtractSliceOp::create(

           b, loc, unpackOp.getDest(), offsets, sizes, destStrides);

       sliceDest = destSliceOp;

       generatedSlices.push_back(destSliceOp);

     } else {

       sliceDest = tensor::EmptyOp::create(

           b, loc, destExpandedSizes, unpackOp.getDestType().getElementType());

     }


     SmallVector<Value> tiledOperands = {sliceSource.getResult(), sliceDest};

     for (auto tile : unpackOp.getInnerTiles())

       tiledOperands.push_back(tile);


     Operation *tiledUnpackOp = UnPackOp::create(

         b, loc, TypeRange{sliceDest.getType()}, tiledOperands, op->getAttrs());


     if (isPerfectTilingCase)

       return TilingResult{{tiledUnpackOp},

                           SmallVector<Value>(tiledUnpackOp->getResults()),

                           generatedSlices};


     auto extractSlice = tensor::ExtractSliceOp::create(

         b, loc, tiledUnpackOp->getResult(0), resultOffsetsFromDest, sizes,

         destStrides);

     return TilingResult{

         {tiledUnpackOp}, {extractSlice.getResult()}, generatedSlices};

   }


   LogicalResult

   getResultTilePosition(Operation *op, OpBuilder &b, unsigned resultNumber,

                         ArrayRef<OpFoldResult> offsets,

                         ArrayRef<OpFoldResult> sizes,

                         SmallVector<OpFoldResult> &resultOffsets,

                         SmallVector<OpFoldResult> &resultSizes) const {

     resultOffsets = llvm::to_vector(offsets);

     resultSizes = llvm::to_vector(sizes);

     return success();

   }


   FailureOr<TilingResult>

   generateResultTileValue(Operation *op, OpBuilder &b, unsigned resultNumber,

                           ArrayRef<OpFoldResult> offsets,

                           ArrayRef<OpFoldResult> sizes) const {

     FailureOr<TilingResult> tilingResult =

         getTiledImplementation(op, b, offsets, sizes);

     if (failed(tilingResult))

       return failure();

     return tilingResult.value();

   }


   /// Method to return the position of iteration domain tile computed by the

   /// tiled operation.

   LogicalResult getIterationDomainTileFromOperandTiles(

       Operation *op, OpBuilder &b, ArrayRef<unsigned> operandNumbers,

       ArrayRef<SmallVector<OpFoldResult>> allOffsets,

       ArrayRef<SmallVector<OpFoldResult>> allSizes,

       SmallVectorImpl<OpFoldResult> &resultOffsets,

       SmallVectorImpl<OpFoldResult> &resultSizes) const {

     if (operandNumbers.size() != 1) {

       LLVM_DEBUG({ llvm::dbgs() << "unable to handle multiple operands"; });

       return failure();

     }

     auto unPackOp = cast<UnPackOp>(op);

     unsigned operandNumber = operandNumbers[0];

     ArrayRef<OpFoldResult> offsets(allOffsets[0]);

     ArrayRef<OpFoldResult> sizes(allSizes[0]);


     // If the operand tile is the dest, then no adjustment is needed.

     if (operandNumber == unPackOp.getDestMutable().getOperandNumber()) {

       resultOffsets = llvm::to_vector(offsets);

       resultSizes = llvm::to_vector(sizes);

       return success();

     }

     Location loc = unPackOp.getLoc();


     int64_t numTiles = unPackOp.getInnerDimsPos().size();

     auto destOffsets = offsets.drop_back(numTiles);

     auto destSizes = sizes.drop_back(numTiles);

     // The tiling is applied on interchanged dimensions. We have to undo the

     // interchange to map sizes and offsets to the original input.

     int64_t outputRank = unPackOp.getDestRank();

     ReifiedRankedShapedTypeDims reifiedReturnShapes;

     if (failed(reifyResultShapes(b, unPackOp, reifiedReturnShapes)))

       return failure();

     SmallVector<OpFoldResult> outputMixedSizes = reifiedReturnShapes.front();

     SmallVector<OpFoldResult> origOffsets(destOffsets);

     SmallVector<OpFoldResult> origSizes(destSizes);

     applyPermToRange(origOffsets, origSizes,

                      invertPermutationVector(unPackOp.getOuterDimsPerm()));


     DenseMap<int64_t, OpFoldResult> dimAndTileMapping =

         unPackOp.getDimAndTileMapping();


     for (auto dim : llvm::seq<int64_t>(0, outputRank)) {

       using AV = affine::AffineValueExpr;

       affine::AffineBuilder ab(b, loc);

       AffineExpr dim0, dim1, sym0;

       bindDims(b.getContext(), dim0, dim1);

       bindSymbols(b.getContext(), sym0);

       if (dimAndTileMapping.count(dim)) {

         // If the data dimension is tiled, the i-th index is the product of

         // offset_i and tile_i, and the i-th size is the product of sizes_i and

         // tile_i. The sizes must be clamped to the sizes of the unpack result.

         auto avOffset = AV(dim0).bind(origOffsets[dim]);

         auto avSize = AV(dim0).bind(origSizes[dim]);

         auto avTileSize = AV(sym0).bind(dimAndTileMapping[dim]);

         auto avResultSize = AV(dim0).bind(outputMixedSizes[dim]);

         resultOffsets.push_back(ab.mul(avOffset, avTileSize));

         auto avResultOffset = AV(dim1).bind(resultOffsets.back());

         resultSizes.push_back(ab.min({ab.mul(avSize, avTileSize),

                                       ab.sub(avResultSize, avResultOffset)}));

       } else {

         resultOffsets.push_back(origOffsets[dim]);

         resultSizes.push_back(origSizes[dim]);

       }

     }

     return success();

   }


   /// Method to return the tiled implementation of tensor.unpack as a consumer.

   FailureOr<TilingResult> getTiledImplementationFromOperandTiles(

       Operation *op, OpBuilder &b, ArrayRef<unsigned> operandNumbers,

       ArrayRef<SmallVector<OpFoldResult>> allOffsets,

       ArrayRef<SmallVector<OpFoldResult>> allSizes) const {

     if (operandNumbers.size() != 1 || operandNumbers[0] != 0) {

       LLVM_DEBUG({ llvm::dbgs() << "unhandled operands for consumer fusion"; });

       return failure();

     }

     auto unPackOp = cast<UnPackOp>(op);

     ArrayRef<OpFoldResult> offsets(allOffsets[0]);

     ArrayRef<OpFoldResult> sizes(allSizes[0]);


     // tensor.unpack op is fusible (as a consumer) only if inner dims are not

     // tiled.

     int64_t numTiles = unPackOp.getInnerDimsPos().size();

     for (auto iter :

          llvm::zip_equal(unPackOp.getMixedTiles(), sizes.take_back(numTiles))) {

       if (!isEqualConstantIntOrValue(std::get<0>(iter), std::get<1>(iter)))

         return failure();

     }


     Location loc = unPackOp.getLoc();


     // Fetch offset/size for creating the slice of the dest operand of

     // unpack op.

     SmallVector<OpFoldResult> outputOffsets, outputSizes;

     if (failed(getIterationDomainTileFromOperandTiles(

             op, b, operandNumbers, allOffsets, allSizes, outputOffsets,

             outputSizes)))

       return failure();


     auto oneAttr = b.getI64IntegerAttr(1);

     int64_t outputRank = unPackOp.getDestRank();

     SmallVector<OpFoldResult> strides(outputRank, oneAttr);


     SmallVector<Value> tiledOperands;

     // Create slice of the dest operand.

     auto extractDestSlice = tensor::ExtractSliceOp::create(

         b, loc, unPackOp.getDest(), outputOffsets, outputSizes, strides);

     tiledOperands.push_back(extractDestSlice);


     strides.append(unPackOp.getSourceRank() - outputRank, oneAttr);

     // Create slice of the source operand.

     auto extractSourceSlice = tensor::ExtractSliceOp::create(

         b, loc, unPackOp.getSource(), offsets, sizes, strides);

     tiledOperands.insert(tiledOperands.begin(), extractSourceSlice);

     for (auto tile : unPackOp.getInnerTiles())

       tiledOperands.push_back(tile);


     // Create tiled unpack op.

     Operation *tiledUnPackOp =

         UnPackOp::create(b, loc, TypeRange{extractDestSlice.getType()},

                          tiledOperands, op->getAttrs());


     return TilingResult{{tiledUnPackOp},

                         SmallVector<Value>(tiledUnPackOp->getResults()),

                         llvm::to_vector(ArrayRef<Operation *>{

                             extractSourceSlice, extractDestSlice})};

   }

 };


 } // namespace


 template <typename OpType>

 static void registerOne(MLIRContext *ctx) {

   OpType::template attachInterface<LinalgOpTilingInterface<OpType>>(*ctx);

   OpType::template attachInterface<LinalgOpPartialReductionInterface<OpType>>(

       *ctx);

 }


 /// Variadic helper function.

 template <typename... OpTypes>

 static void registerAll(MLIRContext *ctx) {

   (registerOne<OpTypes>(ctx), ...);

 }


 #define GET_OP_LIST


 void mlir::linalg::registerTilingInterfaceExternalModels(

     DialectRegistry &registry) {

   registry.addExtension(+[](MLIRContext *ctx, linalg::LinalgDialect *dialect) {

     registerOne<linalg::GenericOp>(ctx);

     linalg::PackOp::attachInterface<PackOpTiling>(*ctx);

     linalg::UnPackOp::attachInterface<UnPackOpTiling>(*ctx);

     registerAll<

 #include "mlir/Dialect/Linalg/IR/LinalgStructuredOps.cpp.inc"

         >(ctx);

   });

 }


 void mlir::linalg::registerTilingInterfaceExternalModelsForPackUnPackOps(

     DialectRegistry &registry) {

   registry.addExtension(+[](MLIRContext *ctx, LinalgDialect *dialect) {

     linalg::PackOp::attachInterface<PackOpTiling>(*ctx);

     linalg::UnPackOp::attachInterface<UnPackOpTiling>(*ctx);

   });

 }

AffineOps.h

BuiltinTypeInterfaces.h

Utils.h

Utils.h

isTiled
static bool isTiled(AffineExpr expr, ArrayRef< OpFoldResult > tileSizes)
Definition: Utils.cpp:74

Utils.h

IndexingUtils.h

sliceResultType
static RankedTensorType sliceResultType(Type operandType, GridOp grid, ArrayRef< GridAxis > gridAxes, int64_t sliceAxis)
Definition: ShardOps.cpp:1139

SliceAnalysis.h

StaticValueUtils.h

StructuredOpsUtils.h

getResultTilePosition
static LogicalResult getResultTilePosition(RewriterBase &rewriter, ReductionTilingStrategy reductionStrategy, int64_t index, Value tiledResult, TilingInterface op, ArrayRef< OpFoldResult > offsets, ArrayRef< OpFoldResult > sizes, ValueRange ivs, ArrayRef< OpFoldResult > numThreads, ArrayRef< OpFoldResult > givenTileSizes, const SetVector< unsigned > &reductionDims, SmallVector< OpFoldResult > &resultOffset, SmallVector< OpFoldResult > &resultSize)
Definition: TileUsingInterface.cpp:848

getTiledImplementation
static FailureOr< TilingResult > getTiledImplementation(RewriterBase &rewriter, TilingInterface op, ReductionTilingStrategy reductionStrategy, ValueRange regionIterArg, ArrayRef< OpFoldResult > offsets, ArrayRef< OpFoldResult > sizes, ValueRange ivs, ArrayRef< OpFoldResult > numThreads, ArrayRef< OpFoldResult > givenTileSizes, const SetVector< unsigned > &reductionDims)
Definition: TileUsingInterface.cpp:821

getIndicesForAccess
static SmallVector< Value > getIndicesForAccess(OpBuilder &b, Location loc, AffineMap indexingMap, ValueRange ivs)
Return the SSA values that represent the data point accessed using a given indexingMap for a given po...
Definition: TilingInterfaceImpl.cpp:40

inlinePayload
static LogicalResult inlinePayload(OpBuilder &b, LinalgOp linalgOp, ValueRange ivs, ValueRange argValues)
Method to inline the payload of a linalgOp given the iteration space point and values for the argumen...
Definition: TilingInterfaceImpl.cpp:56

registerAll
static void registerAll(MLIRContext *ctx)
Variadic helper function.
Definition: TilingInterfaceImpl.cpp:1401

registerOne
static void registerOne(MLIRContext *ctx)
Definition: TilingInterfaceImpl.cpp:1393

TilingInterfaceImpl.h

TilingInterface.h

ValueBoundsOpInterface.h

llvm::ArrayRef
Definition: LLVM.h:48

llvm::DenseMap
Definition: LLVM.h:55

llvm::SetVector< unsigned >

llvm::SmallVectorImpl
Definition: LLVM.h:74

llvm::SmallVector
Definition: LLVM.h:72

mlir::AffineExpr
Base type for affine expression.
Definition: AffineExpr.h:68

mlir::AffineMap
A multi-dimensional affine map Affine map's are immutable like Type's, and they are uniqued.
Definition: AffineMap.h:46

mlir::AffineMap::get
static AffineMap get(MLIRContext *context)
Returns a zero result affine map with no dimensions or symbols: () -> ().
Definition: MLIRContext.cpp:1224

mlir::AffineMap::isProjectedPermutation
bool isProjectedPermutation(bool allowZeroInResults=false) const
Returns true if the AffineMap represents a subset (i.e.
Definition: AffineMap.cpp:611

mlir::AffineMap::getNumSymbols
unsigned getNumSymbols() const
Definition: AffineMap.cpp:394

mlir::AffineMap::getNumDims
unsigned getNumDims() const
Definition: AffineMap.cpp:390

mlir::AffineMap::getResults
ArrayRef< AffineExpr > getResults() const
Definition: AffineMap.cpp:403

mlir::AffineMap::getNumResults
unsigned getNumResults() const
Definition: AffineMap.cpp:398

mlir::Attribute
Attributes are known-constant values of operations.
Definition: Attributes.h:25

mlir::Block
Block represents an ordered list of Operations.
Definition: Block.h:33

mlir::Block::getTerminator
Operation * getTerminator()
Get the terminator operation of this block.
Definition: Block.cpp:244

mlir::Block::getArguments
BlockArgListType getArguments()
Definition: Block.h:87

mlir::Block::without_terminator
iterator_range< iterator > without_terminator()
Return an iterator range over the operation within this block excluding the terminator operation at t...
Definition: Block.h:212

mlir::Builder::getIndexAttr
IntegerAttr getIndexAttr(int64_t value)
Definition: Builders.cpp:108

mlir::Builder::getI64IntegerAttr
IntegerAttr getI64IntegerAttr(int64_t value)
Definition: Builders.cpp:112

mlir::Builder::getContext
MLIRContext * getContext() const
Definition: Builders.h:56

mlir::DialectRegistry
The DialectRegistry maps a dialect namespace to a constructor for the matching dialect.
Definition: DialectRegistry.h:139

mlir::DialectRegistry::addExtension
bool addExtension(TypeID extensionID, std::unique_ptr< DialectExtensionBase > extension)
Add the given extension to the registry.
Definition: DialectRegistry.h:215

mlir::IRMapping
This is a utility class for mapping one set of IR entities to another.
Definition: IRMapping.h:26

mlir::IRMapping::lookupOrDefault
auto lookupOrDefault(T from) const
Lookup a mapped value within the map.
Definition: IRMapping.h:65

mlir::IRMapping::map
void map(Value from, Value to)
Inserts a new mapping for 'from' to 'to'.
Definition: IRMapping.h:30

mlir::IROperand::get
IRValueT get() const
Return the current value being used by this operand.
Definition: UseDefLists.h:160

mlir::Location
This class defines the main interface for locations in MLIR and acts as a non-nullable wrapper around...
Definition: Location.h:76

mlir::MLIRContext
MLIRContext is the top-level object for a collection of MLIR operations.
Definition: MLIRContext.h:63

mlir::OpBuilder::InsertionGuard
RAII guard to reset the insertion point of the builder when destroyed.
Definition: Builders.h:348

mlir::OpBuilder
This class helps build Operations.
Definition: Builders.h:207

mlir::OpBuilder::clone
Operation * clone(Operation &op, IRMapping &mapper)
Creates a deep copy of the specified operation, remapping any operands that use values outside of the...
Definition: Builders.cpp:562

mlir::OpBuilder::setInsertionPoint
void setInsertionPoint(Block *block, Block::iterator insertPoint)
Set the insertion point to the specified location.
Definition: Builders.h:398

mlir::OpBuilder::createOrFold
void createOrFold(SmallVectorImpl< Value > &results, Location location, Args &&...args)
Create an operation of specific op type at the current insertion point, and immediately try to fold i...
Definition: Builders.h:526

mlir::OpFoldResult
This class represents a single result from folding an operation.
Definition: OpDefinition.h:272

mlir::OpOperand
This class represents an operand of an operation.
Definition: Value.h:257

mlir::OpResult
This is a value defined by a result of an operation.
Definition: Value.h:457

mlir::Operation
Operation is the basic unit of execution within MLIR.
Definition: Operation.h:88

mlir::Operation::setOperand
void setOperand(unsigned idx, Value value)
Definition: Operation.h:351

mlir::Operation::getResult
OpResult getResult(unsigned idx)
Get the 'idx'th result of this operation.
Definition: Operation.h:407

mlir::Operation::getLoc
Location getLoc()
The source location the operation was defined or derived from.
Definition: Operation.h:223

mlir::Operation::getAttrs
ArrayRef< NamedAttribute > getAttrs()
Return all of the attributes on this operation.
Definition: Operation.h:512

mlir::Operation::getRegion
Region & getRegion(unsigned index)
Returns the region held by this operation at position 'index'.
Definition: Operation.h:686

mlir::Operation::getOperands
operand_range getOperands()
Returns an iterator on the underlying Value's.
Definition: Operation.h:378

mlir::Operation::getResults
result_range getResults()
Definition: Operation.h:415

mlir::Operation::emitOpError
InFlightDiagnostic emitOpError(const Twine &message={})
Emit an error with the op name prefixed, like "'dim' op " which is convenient for verifiers.
Definition: Operation.cpp:673

mlir::Region::cloneInto
void cloneInto(Region *dest, IRMapping &mapper)
Clone the internal blocks from this region into dest.
Definition: Region.cpp:70

mlir::TypeRange
This class provides an abstraction over the various different ranges of value types.
Definition: TypeRange.h:37

mlir::Type
Instances of the Type class are uniqued, have an immutable identifier and an optional mutable compone...
Definition: Types.h:74

mlir::ValueBoundsConstraintSet::computeConstantBound
static FailureOr< int64_t > computeConstantBound(presburger::BoundType type, const Variable &var, const StopConditionFn &stopCondition=nullptr, bool closedUB=false)
Compute a constant bound for the given variable.
Definition: ValueBoundsOpInterface.cpp:633

mlir::ValueRange
This class provides an abstraction over the different types of ranges over Values.
Definition: ValueRange.h:387

mlir::ValueRange::getTypes
type_range getTypes() const

mlir::Value
This class represents an instance of an SSA value in the MLIR system, representing a computable value...
Definition: Value.h:96

mlir::Value::getType
Type getType() const
Return the type of this value.
Definition: Value.h:105

mlir::Value::getDefiningOp
Operation * getDefiningOp() const
If this value is the result of an operation, return the operation that defines it.
Definition: Value.cpp:18

Arith.h

Linalg.h

MemRef.h

Tensor.h

mlir::affine::makeComposedFoldedAffineApply
OpFoldResult makeComposedFoldedAffineApply(OpBuilder &b, Location loc, AffineMap map, ArrayRef< OpFoldResult > operands, bool composeAffineMin=false)
Constructs an AffineApplyOp that applies map to operands after composing the map with the maps of any...
Definition: AffineOps.cpp:1469

mlir::affine::getDivMod
DivModValue getDivMod(OpBuilder &b, Location loc, Value lhs, Value rhs)
Create IR to calculate (div lhs, rhs) and (mod lhs, rhs).
Definition: Utils.cpp:1943

mlir::arith::getNeutralElement
std::optional< TypedAttr > getNeutralElement(Operation *op)
Return the identity numeric value associated to the give op.
Definition: ArithOps.cpp:2734

mlir::detail::enumerate
constexpr void enumerate(std::tuple< Tys... > &tuple, CallbackT &&callback)
Definition: Matchers.h:344

mlir::linalg
Definition: LinalgToStandard.h:24

mlir::linalg::makeTiledShapes
SmallVector< Value > makeTiledShapes(OpBuilder &builder, Location loc, LinalgOp linalgOp, ValueRange valuesToTile, ArrayRef< OpFoldResult > ivs, ArrayRef< OpFoldResult > tileSizes, ArrayRef< OpFoldResult > sizeBounds, bool omitPartialTileCheck)
Creates extract_slice/subview ops for all valuesToTile of the given linalgOp with builder,...
Definition: Utils.cpp:860

mlir::linalg::registerTilingInterfaceExternalModelsForPackUnPackOps
void registerTilingInterfaceExternalModelsForPackUnPackOps(DialectRegistry &registry)
Similar to the above registeration, but it is only for tensor.pack and tensor.unpack ops.
Definition: TilingInterfaceImpl.cpp:1419

mlir::linalg::offsetIndices
void offsetIndices(OpBuilder &b, LinalgOp linalgOp, ArrayRef< OpFoldResult > offests)
Add the specified offsets to any linalg.index ops contained in the given linalgOp.
Definition: Utils.cpp:882

mlir::linalg::registerTilingInterfaceExternalModels
void registerTilingInterfaceExternalModels(DialectRegistry &registry)
Definition: TilingInterfaceImpl.cpp:1407

mlir::linalg::getTensorOutputTypes
SmallVector< Type > getTensorOutputTypes(LinalgOp op, ValueRange operands)
Returns the list of tensor output types produced when the given structured operation op is applied to...
Definition: Utils.cpp:771

mlir::linalg::computeSliceParameters
SliceParameters computeSliceParameters(OpBuilder &builder, Location loc, Value valueToTile, ArrayRef< OpFoldResult > tileSizes, AffineMap map, ArrayRef< OpFoldResult > lbs, ArrayRef< OpFoldResult > ubs, ArrayRef< OpFoldResult > subShapeSizes, bool omitPartialTileCheck)
Computes SliceParameters for a single valueToTile assuming that its user is being tiled with the give...
Definition: Utils.cpp:624

mlir::presburger::BoundType::UB
@ UB

mlir::remark::failed
detail::InFlightRemark failed(Location loc, RemarkOpts opts)
Report an optimization remark that failed.
Definition: Remarks.h:561

mlir::tensor::getMixedSizes
SmallVector< OpFoldResult > getMixedSizes(OpBuilder &builder, Location loc, Value value)
Return the dimensions of the given tensor value.
Definition: TensorOps.cpp:66

mlir
Include the generated interface declarations.
Definition: LocalAliasAnalysis.h:20

mlir::ReductionTilingStrategy
ReductionTilingStrategy
Tiling can be thought of as splitting a dimension into 2 and materializing the outer dimension as a l...
Definition: TilingInterface.h:48

mlir::ReductionTilingStrategy::PartialReductionOuterReduction
@ PartialReductionOuterReduction

mlir::ReductionTilingStrategy::PartialReductionOuterParallel
@ PartialReductionOuterParallel

mlir::getConstantIntValue
std::optional< int64_t > getConstantIntValue(OpFoldResult ofr)
If ofr is a constant integer or an IntegerAttr, return the integer.
Definition: StaticValueUtils.cpp:134

mlir::reifyResultShapes
LogicalResult reifyResultShapes(OpBuilder &b, Operation *op, ReifiedRankedShapedTypeDims &reifiedReturnShapes)
Reify the shape of the result of an operation (typically in terms of the shape of its operands).
Definition: InferTypeOpInterface.cpp:27

mlir::isEqualConstantIntOrValue
bool isEqualConstantIntOrValue(OpFoldResult ofr1, OpFoldResult ofr2)
Return true if ofr1 and ofr2 are the same integer constant attribute values or the same SSA value.
Definition: StaticValueUtils.cpp:176

mlir::bindDims
void bindDims(MLIRContext *ctx, AffineExprTy &...exprs)
Bind a list of AffineExpr references to DimExpr at positions: [0 .
Definition: AffineExpr.h:311

mlir::matchReduction
Value matchReduction(ArrayRef< BlockArgument > iterCarriedArgs, unsigned redPos, SmallVectorImpl< Operation * > &combinerOps)
Utility to match a generic reduction given a list of iteration-carried arguments, iterCarriedArgs and...
Definition: SliceAnalysis.cpp:290

mlir::getElementTypeOrSelf
Type getElementTypeOrSelf(Type type)
Return the element type or return the type itself.
Definition: TypeUtilities.cpp:23

mlir::isZeroInteger
bool isZeroInteger(OpFoldResult v)
Return true if v is an IntegerAttr with value 0.
Definition: StaticValueUtils.cpp:20

mlir::bindSymbols
void bindSymbols(MLIRContext *ctx, AffineExprTy &...exprs)
Bind a list of AffineExpr references to SymbolExpr at positions: [0 .
Definition: AffineExpr.h:325

mlir::getValueOrCreateConstantIndexOp
Value getValueOrCreateConstantIndexOp(OpBuilder &b, Location loc, OpFoldResult ofr)
Converts an OpFoldResult to a Value.
Definition: Utils.cpp:111

mlir::clone
Operation * clone(OpBuilder &b, Operation *op, TypeRange newResultTypes, ValueRange newOperands)
Definition: StructuredOpsUtils.cpp:197

mlir::tile
SmallVector< Loops, 8 > tile(ArrayRef< scf::ForOp > forOps, ArrayRef< Value > sizes, ArrayRef< scf::ForOp > targets)
Performs tiling fo imperfectly nested loops (with interchange) by strip-mining the forOps by sizes an...
Definition: Utils.cpp:1293

mlir::get
auto get(MLIRContext *context, Ts &&...params)
Helper method that injects context only if needed, this helps unify some of the attribute constructio...
Definition: BytecodeImplementation.h:509

mlir::applyPermutationToVector
void applyPermutationToVector(SmallVector< T, N > &inVec, ArrayRef< int64_t > permutation)
Apply the permutation defined by permutation to inVec.
Definition: IndexingUtils.h:226

mlir::decomposeMixedValues
std::pair< SmallVector< int64_t >, SmallVector< Value > > decomposeMixedValues(ArrayRef< OpFoldResult > mixedValues)
Decompose a vector of mixed static or dynamic values into the corresponding pair of arrays.
Definition: StaticValueUtils.cpp:226

mlir::invertPermutationVector
SmallVector< int64_t > invertPermutationVector(ArrayRef< int64_t > permutation)
Helper method to apply to inverse a permutation.
Definition: IndexingUtils.cpp:187

mlir::MergeResult
Container for the result of merge operation of tiling.
Definition: TilingInterface.h:64

mlir::TilingResult
Container for result values of tiling.
Definition: TilingInterface.h:33

mlir::TilingResult::tiledOps
SmallVector< Operation * > tiledOps
Definition: TilingInterface.h:34

mlir::linalg::SliceParameters
A struct containg offsets-sizes-strides arguments of the tiled shape.
Definition: Utils.h:155

mlir::linalg::SliceParameters::sizes
SmallVector< OpFoldResult > sizes
Definition: Utils.h:157

mlir::linalg::SliceParameters::offsets
SmallVector< OpFoldResult > offsets
Definition: Utils.h:156