simulation/m__mpi__common_8fpp_8f90_source.html

# 1 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!>

!! @file

!! @brief Contains module m_mpi_common


# 1 "/home/runner/work/MFC/MFC/src/common/include/case.fpp" 1

! This file exists so that Fypp can be run without generating case.fpp files for

! each target. This is useful when generating documentation, for example. This

! should also let MFC be built with CMake directly, without invoking mfc.sh.


! For pre-process.

# 9 "/home/runner/work/MFC/MFC/src/common/include/case.fpp"


! For moving immersed boundaries in simulation

# 14 "/home/runner/work/MFC/MFC/src/common/include/case.fpp"

# 6 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp" 2

# 1 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp" 1

# 1 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp" 1

# 1 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp" 1

# 2 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 3 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 4 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 5 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 6 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 8 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 9 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 10 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 17 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 46 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 58 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 68 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 98 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 110 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 120 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

! New line at end of file is required for FYPP

# 2 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp" 2

# 1 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp" 1

# 1 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp" 1

# 2 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 3 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 4 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 5 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 6 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 8 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 9 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 10 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 17 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 46 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 58 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 68 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 98 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 110 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 120 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

! New line at end of file is required for FYPP

# 2 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp" 2


# 4 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"

# 5 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"

# 6 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"

# 7 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"

# 8 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 20 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 43 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 48 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 53 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 58 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 63 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 68 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 76 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 81 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 86 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 91 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 96 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 101 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 106 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 111 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 116 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 121 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 151 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 192 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 206 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 231 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 242 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 244 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"

# 255 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 284 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 294 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 304 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 313 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 330 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 340 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 347 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 353 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 359 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 365 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 371 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"


# 377 "/home/runner/work/MFC/MFC/src/common/include/omp_macros.fpp"

! New line at end of file is required for FYPP

# 3 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp" 2

# 1 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp" 1

# 1 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp" 1

# 2 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 3 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 4 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 5 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 6 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 8 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 9 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

# 10 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 17 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 46 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 58 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 68 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 98 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 110 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"


# 120 "/home/runner/work/MFC/MFC/src/common/include/shared_parallel_macros.fpp"

! New line at end of file is required for FYPP

# 2 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp" 2


# 7 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 17 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 22 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 27 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 32 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 37 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 42 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 47 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 52 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 57 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 62 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 73 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 78 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 83 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 88 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 103 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 131 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 160 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 175 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 193 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 215 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 244 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 259 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 269 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 278 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 294 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 304 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"


# 311 "/home/runner/work/MFC/MFC/src/common/include/acc_macros.fpp"

! New line at end of file is required for FYPP

# 4 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp" 2


! GPU parallel region (scalar reductions, maxval/minval)

# 23 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! GPU parallel loop over threads (most common GPU macro)

# 43 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Required closing for GPU_PARALLEL_LOOP

# 55 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Mark routine for device compilation

# 112 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Declare device-resident data

# 130 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Inner loop within a GPU parallel region

# 145 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Scoped GPU data region

# 164 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Host code with device pointers (for MPI with GPU buffers)

# 193 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Allocate device memory (unscoped)

# 207 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Free device memory

# 219 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Atomic operation on device

# 231 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! End atomic capture block

# 242 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Copy data between host and device

# 254 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Synchronization barrier

# 266 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Import GPU library module (openacc or omp_lib)

# 275 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Emit code only for AMD compiler

# 282 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Emit code for non-Cray compilers

# 289 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Emit code only for Cray compiler

# 296 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


! Emit code for non-NVIDIA compilers

# 303 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"


# 305 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"

# 306 "/home/runner/work/MFC/MFC/src/common/include/parallel_macros.fpp"

! New line at end of file is required for FYPP

# 2 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp" 2


# 14 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


! Caution: This macro requires the use of a binding script to set CUDA_VISIBLE_DEVICES, such that we have one GPU device per MPI

! rank. That's because for both cudaMemAdvise (preferred location) and cudaMemPrefetchAsync we use location = device_id = 0. For an

! example see misc/nvidia_uvm/bind.sh. NVIDIA unified memory page placement hint

# 57 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


! Allocate and create GPU device memory

# 77 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


! Free GPU device memory and deallocate

# 85 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


! Cray-specific GPU pointer setup for vector fields

# 109 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


! Cray-specific GPU pointer setup for scalar fields

# 125 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


! Cray-specific GPU pointer setup for acoustic source spatials

# 150 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


# 156 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"


# 163 "/home/runner/work/MFC/MFC/src/common/include/macros.fpp"

! New line at end of file is required for FYPP

# 7 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp" 2


!> @brief MPI communication layer: domain decomposition, halo exchange, reductions, and parallel I/O setup

module m_mpi_common


#ifdef MFC_MPI

    use mpi  !< message passing interface (mpi) module

#endif


    use m_derived_types

    use m_global_parameters

    use m_helper

    use ieee_arithmetic

    use m_nvtx


    implicit none


    integer, private :: v_size


# 24 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 24 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc declare create(v_size)

# 24 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 24 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp declare target (v_size)

# 24 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


    real(wp), private, allocatable, dimension(:) :: buff_send  !< Primitive variable send buffer for halo exchange

    real(wp), private, allocatable, dimension(:) :: buff_recv  !< Primitive variable receive buffer for halo exchange

#ifndef __NVCOMPILER_GPU_UNIFIED_MEM


# 29 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 29 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc declare create(buff_send, buff_recv)

# 29 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 29 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp declare target (buff_send, buff_recv)

# 29 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

#endif


    integer(kind=8) :: halo_size


# 33 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 33 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc declare create(halo_size)

# 33 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 33 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp declare target (halo_size)

# 33 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


contains


    !> Initialize the module.


    impure subroutine s_initialize_mpi_common_module


#ifdef MFC_MPI

        ! Allocating buff_send/recv and. Please note that for the sake of simplicity, both variables are provided sufficient storage

        ! to hold the largest buffer in the computational domain.


        if (qbmm .and. .not. polytropic) then

            v_size = sys_size + 2*nb*nnode

        else if (chemistry .and. chem_params%diffusion) then

            v_size = sys_size + 1

        else

            v_size = sys_size

        end if


        if (n > 0) then

            if (p > 0) then

                halo_size = nint(-1._wp + 1._wp*buff_size*(v_size)*(m + 2*buff_size + 1)*(n + 2*buff_size + 1)*(p + 2*buff_size &

                                 & + 1)/(cells_bounds%mnp_min + 2*buff_size + 1))

            else

                halo_size = -1 + buff_size*(v_size)*(cells_bounds%mn_max + 2*buff_size + 1)

            end if

        else

            halo_size = -1 + buff_size*(v_size)

        end if


# 63 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 63 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc update device(halo_size, v_size)

# 63 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 63 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target update to(halo_size, v_size)

# 63 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


#ifndef __NVCOMPILER_GPU_UNIFIED_MEM

#ifdef MFC_DEBUG

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

    block

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

        use iso_fortran_env, only: output_unit

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

        print *, 'm_mpi_common.fpp:66: ', '@:ALLOCATE(buff_send(0:halo_size), buff_recv(0:halo_size))'

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

        call flush (output_unit)

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

    end block

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

    allocate (buff_send(0:halo_size), buff_recv(0:halo_size))

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc enter data create(buff_send, buff_recv)

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target enter data map(always,alloc:buff_send, buff_recv)

# 66 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

#else

        allocate (buff_send(0:halo_size), buff_recv(0:halo_size))


# 69 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 69 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc enter data create(capture:buff_send)

# 69 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 69 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target enter data map(always,alloc:capture:buff_send)

# 69 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 70 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 70 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc enter data create(capture:buff_recv)

# 70 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 70 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target enter data map(always,alloc:capture:buff_recv)

# 70 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

#endif

#endif


    end subroutine s_initialize_mpi_common_module


    !> Initialize the MPI execution environment and query the number of processors and local rank.


    impure subroutine s_mpi_initialize


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_init(ierr)


        if (ierr /= mpi_success) then

            print '(A)', 'Unable to initialize MPI environment. Exiting.'

            call mpi_abort(mpi_comm_world, 1, ierr)

        end if


        call mpi_comm_size(mpi_comm_world, num_procs, ierr)


        call mpi_comm_rank(mpi_comm_world, proc_rank, ierr)

#else

        num_procs = 1

        proc_rank = 0

#endif


    end subroutine s_mpi_initialize


    !> Set up MPI I/O data views and variable pointers for parallel file output.


    impure subroutine s_initialize_mpi_data(q_cons_vf, ib_markers, beta)


        type(scalar_field), dimension(sys_size), intent(in) :: q_cons_vf

        type(integer_field), optional, intent(in)           :: ib_markers

        type(scalar_field), intent(in), optional            :: beta

        integer, dimension(num_dims)                        :: sizes_glb, sizes_loc


#ifdef MFC_MPI

        integer :: i, j

        integer :: ierr  !< Generic flag used to identify and report MPI errors

        integer :: alt_sys


        if (present(beta)) then

            alt_sys = sys_size + 1

        else

            alt_sys = sys_size

        end if


        do i = 1, sys_size

            mpi_io_data%var(i)%sf => q_cons_vf(i)%sf(0:m,0:n,0:p)

        end do


        if (present(beta)) then

            mpi_io_data%var(alt_sys)%sf => beta%sf(0:m,0:n,0:p)

        end if


        ! Additional variables pb and mv for non-polytropic qbmm

        if (qbmm .and. .not. polytropic) then

            do i = 1, nb

                do j = 1, nnode

#ifdef MFC_PRE_PROCESS

                    mpi_io_data%var(sys_size + (i - 1)*nnode + j)%sf => pb%sf(0:m,0:n,0:p,j, i)

                    mpi_io_data%var(sys_size + (i - 1)*nnode + j + nb*nnode)%sf => mv%sf(0:m,0:n,0:p,j, i)

#elif defined (MFC_SIMULATION)

                    mpi_io_data%var(sys_size + (i - 1)*nnode + j)%sf => pb_ts(1)%sf(0:m,0:n,0:p,j, i)

                    mpi_io_data%var(sys_size + (i - 1)*nnode + j + nb*nnode)%sf => mv_ts(1)%sf(0:m,0:n,0:p,j, i)

#endif

                end do

            end do

        end if


        ! Define global(g) and local(l) sizes for flow variables

        sizes_glb(1) = m_glb + 1; sizes_loc(1) = m + 1

        if (n > 0) then

            sizes_glb(2) = n_glb + 1; sizes_loc(2) = n + 1

            if (p > 0) then

                sizes_glb(num_dims) = p_glb + 1; sizes_loc(num_dims) = p + 1

            end if

        end if


        ! Define the view for each variable

        do i = 1, alt_sys

            call mpi_type_create_subarray(num_dims, sizes_glb, sizes_loc, start_idx, mpi_order_fortran, mpi_p, &

                                          & mpi_io_data%view(i), ierr)

            call mpi_type_commit(mpi_io_data%view(i), ierr)

        end do


#ifndef MFC_POST_PROCESS

        if (qbmm .and. .not. polytropic) then

            do i = sys_size + 1, sys_size + 2*nb*nnode

                call mpi_type_create_subarray(num_dims, sizes_glb, sizes_loc, start_idx, mpi_order_fortran, mpi_p, &

                                              & mpi_io_data%view(i), ierr)

                call mpi_type_commit(mpi_io_data%view(i), ierr)

            end do

        end if

#endif


#ifndef MFC_PRE_PROCESS

        if (present(ib_markers)) then

            mpi_io_ib_data%var%sf => ib_markers%sf(0:m,0:n,0:p)


            call mpi_type_create_subarray(num_dims, sizes_glb, sizes_loc, start_idx, mpi_order_fortran, mpi_integer, &

                                          & mpi_io_ib_data%view, ierr)

            call mpi_type_commit(mpi_io_ib_data%view, ierr)

        end if

#endif

#endif


    end subroutine s_initialize_mpi_data


    !> Set up MPI I/O data views for downsampled (coarsened) parallel file output.


    subroutine s_initialize_mpi_data_ds(q_cons_vf)


        type(scalar_field), dimension(sys_size), intent(in) :: q_cons_vf

        integer, dimension(num_dims)                        :: sizes_loc

        integer, dimension(3)                               :: sf_start_idx


#ifdef MFC_MPI

        integer :: i, m_ds, n_ds, p_ds, ierr


        sf_start_idx = (/0, 0, 0/)


#ifndef MFC_POST_PROCESS

        m_ds = int((m + 1)/3) - 1

        n_ds = int((n + 1)/3) - 1

        p_ds = int((p + 1)/3) - 1

#else

        m_ds = m

        n_ds = n

        p_ds = p

#endif


#ifdef MFC_POST_PROCESS

        do i = 1, sys_size

            mpi_io_data%var(i)%sf => q_cons_vf(i)%sf(-1:m_ds + 1,-1:n_ds + 1,-1:p_ds + 1)

        end do

#endif

        ! Define global(g) and local(l) sizes for flow variables

        sizes_loc(1) = m_ds + 3

        if (n > 0) then

            sizes_loc(2) = n_ds + 3

            if (p > 0) then

                sizes_loc(num_dims) = p_ds + 3

            end if

        end if


        ! Define the view for each variable

        do i = 1, sys_size

            call mpi_type_create_subarray(num_dims, sizes_loc, sizes_loc, sf_start_idx, mpi_order_fortran, mpi_p, &

                                          & mpi_io_data%view(i), ierr)

            call mpi_type_commit(mpi_io_data%view(i), ierr)

        end do

#endif


    end subroutine s_initialize_mpi_data_ds


    !> Gather variable-length real vectors from all MPI ranks onto the root process.


    impure subroutine s_mpi_gather_data(my_vector, counts, gathered_vector, root)


        integer, intent(in)                     :: counts              !< Array of vector lengths for each process

        real(wp), intent(in), dimension(counts) :: my_vector           !< Input vector on each process

        integer, intent(in)                     :: root                !< Rank of the root process

        real(wp), allocatable, intent(out)      :: gathered_vector(:)  !< Gathered vector on the root process

        integer                                 :: i

        integer                                 :: ierr                !< Generic flag used to identify and report MPI errors

        integer, allocatable                    :: recounts(:), displs(:)


#ifdef MFC_MPI

        allocate (recounts(num_procs))


        call mpi_gather(counts, 1, mpi_integer, recounts, 1, mpi_integer, root, mpi_comm_world, ierr)


        allocate (displs(size(recounts)))


        displs(1) = 0


        do i = 2, size(recounts)

            displs(i) = displs(i - 1) + recounts(i - 1)

        end do


        allocate (gathered_vector(sum(recounts)))

        call mpi_gatherv(my_vector, counts, mpi_p, gathered_vector, recounts, displs, mpi_p, root, mpi_comm_world, ierr)

#endif


    end subroutine s_mpi_gather_data


    !> Gather per-rank time step wall-clock times onto rank 0 for performance reporting.


    impure subroutine mpi_bcast_time_step_values(proc_time, time_avg)


        real(wp), dimension(0:num_procs - 1), intent(inout) :: proc_time

        real(wp), intent(inout)                             :: time_avg


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_gather(time_avg, 1, mpi_p, proc_time(0), 1, mpi_p, 0, mpi_comm_world, ierr)

#endif


    end subroutine mpi_bcast_time_step_values


    !> Print a case file error with the prohibited condition and message, then abort execution.


    impure subroutine s_prohibit_abort(condition, message)


        character(len=*), intent(in) :: condition, message


        print *, ""

        print *, "CASE FILE ERROR"

        print *, "  - Prohibited condition: ", trim(condition)

        if (len_trim(message) > 0) then

            print *, "  - Note: ", trim(message)

        end if

        print *, ""

        call s_mpi_abort(code=case_file_error_code)


    end subroutine s_prohibit_abort


    !> The goal of this subroutine is to determine the global extrema of the stability criteria in the computational domain. This is

    !! performed by sifting through the local extrema of each stability criterion. Note that each of the local extrema is from a

    !! single process, within its assigned section of the computational domain. Finally, note that the global extrema values are

    !! only bookkeept on the rank 0 processor.


    impure subroutine s_mpi_reduce_stability_criteria_extrema(icfl_max_loc, vcfl_max_loc, Rc_min_loc, icfl_max_glb, vcfl_max_glb, &


        & Rc_min_glb)


        real(wp), intent(in)  :: icfl_max_loc

        real(wp), intent(in)  :: vcfl_max_loc

        real(wp), intent(in)  :: rc_min_loc

        real(wp), intent(out) :: icfl_max_glb

        real(wp), intent(out) :: vcfl_max_glb

        real(wp), intent(out) :: rc_min_glb


        icfl_max_glb = icfl_max_loc

        vcfl_max_glb = vcfl_max_loc

        rc_min_glb = rc_min_loc


#ifdef MFC_SIMULATION

#ifdef MFC_MPI

        block

            integer :: ierr


            call mpi_reduce(icfl_max_loc, icfl_max_glb, 1, mpi_p, mpi_max, 0, mpi_comm_world, ierr)


            if (viscous) then

                call mpi_reduce(vcfl_max_loc, vcfl_max_glb, 1, mpi_p, mpi_max, 0, mpi_comm_world, ierr)

                call mpi_reduce(rc_min_loc, rc_min_glb, 1, mpi_p, mpi_min, 0, mpi_comm_world, ierr)

            end if

        end block

#else

        icfl_max_glb = icfl_max_loc


        if (viscous) then

            vcfl_max_glb = vcfl_max_loc

            rc_min_glb = rc_min_loc

        end if

#endif

#endif


    end subroutine s_mpi_reduce_stability_criteria_extrema


    !> Reduce a local real value to its global sum across all MPI ranks.


    impure subroutine s_mpi_allreduce_sum(var_loc, var_glb)


        real(wp), intent(in)  :: var_loc

        real(wp), intent(out) :: var_glb


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_allreduce(var_loc, var_glb, 1, mpi_p, mpi_sum, mpi_comm_world, ierr)

#endif


    end subroutine s_mpi_allreduce_sum


    !> Reduce an array of vectors to their global sums across all MPI ranks.


    impure subroutine s_mpi_allreduce_vectors_sum(var_loc, var_glb, num_vectors, vector_length)


        integer, intent(in)                     :: num_vectors, vector_length

        real(wp), dimension(:,:), intent(in)    :: var_loc

        real(wp), dimension(:,:), intent(inout) :: var_glb


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        if (loc(var_loc) == loc(var_glb)) then

            call mpi_allreduce(mpi_in_place, var_glb, num_vectors*vector_length, mpi_p, mpi_sum, mpi_comm_world, ierr)

        else

            call mpi_allreduce(var_loc, var_glb, num_vectors*vector_length, mpi_p, mpi_sum, mpi_comm_world, ierr)

        end if

#else

        var_glb(1:num_vectors,1:vector_length) = var_loc(1:num_vectors,1:vector_length)

#endif


    end subroutine s_mpi_allreduce_vectors_sum


    !> Reduce a local integer value to its global sum across all MPI ranks.


    impure subroutine s_mpi_allreduce_integer_sum(var_loc, var_glb)


        integer, intent(in)  :: var_loc

        integer, intent(out) :: var_glb


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_allreduce(var_loc, var_glb, 1, mpi_integer, mpi_sum, mpi_comm_world, ierr)

#else

        var_glb = var_loc

#endif


    end subroutine s_mpi_allreduce_integer_sum


    !> Reduce a local real value to its global minimum across all MPI ranks.


    impure subroutine s_mpi_allreduce_min(var_loc, var_glb)


        real(wp), intent(in)  :: var_loc

        real(wp), intent(out) :: var_glb


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_allreduce(var_loc, var_glb, 1, mpi_p, mpi_min, mpi_comm_world, ierr)

#endif


    end subroutine s_mpi_allreduce_min


    !> Reduce a local real value to its global maximum across all MPI ranks.


    impure subroutine s_mpi_allreduce_max(var_loc, var_glb)


        real(wp), intent(in)  :: var_loc

        real(wp), intent(out) :: var_glb


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_allreduce(var_loc, var_glb, 1, mpi_p, mpi_max, mpi_comm_world, ierr)

#endif


    end subroutine s_mpi_allreduce_max


    !> Reduce a local real value to its global minimum across all ranks


    impure subroutine s_mpi_reduce_min(var_loc)


        real(wp), intent(inout) :: var_loc


#ifdef MFC_MPI

        integer  :: ierr  !< Generic flag used to identify and report MPI errors

        real(wp) :: var_glb


        call mpi_reduce(var_loc, var_glb, 1, mpi_p, mpi_min, 0, mpi_comm_world, ierr)


        call mpi_bcast(var_glb, 1, mpi_p, 0, mpi_comm_world, ierr)


        var_loc = var_glb

#endif


    end subroutine s_mpi_reduce_min


    !> Reduce a 2-element variable to its global maximum value with the owning processor rank (MPI_MAXLOC).

    !> Reduce a local value to its global maximum with location (rank) across all ranks


    impure subroutine s_mpi_reduce_maxloc(var_loc)


        real(wp), dimension(2), intent(inout) :: var_loc


#ifdef MFC_MPI

        integer                :: ierr     !< Generic flag used to identify and report MPI errors

        real(wp), dimension(2) :: var_glb  !< Reduced (max value, rank) pair

        call mpi_reduce(var_loc, var_glb, 1, mpi_2p, mpi_maxloc, 0, mpi_comm_world, ierr)


        call mpi_bcast(var_glb, 1, mpi_2p, 0, mpi_comm_world, ierr)


        var_loc = var_glb

#endif


    end subroutine s_mpi_reduce_maxloc


    !> The subroutine terminates the MPI execution environment.


    impure subroutine s_mpi_abort(prnt, code)


        character(len=*), intent(in), optional :: prnt

        integer, intent(in), optional          :: code


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors

#endif


        if (present(prnt)) then

            print *, prnt

            call flush (6)

        end if


#ifndef MFC_MPI

        if (present(code)) then

            stop code

        else

            stop 1

        end if

#else

        if (present(code)) then

            call mpi_abort(mpi_comm_world, code, ierr)

        else

            call mpi_abort(mpi_comm_world, 1, ierr)

        end if

#endif


    end subroutine s_mpi_abort


    !> Halts all processes until all have reached barrier.


    impure subroutine s_mpi_barrier


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_barrier(mpi_comm_world, ierr)

#endif


    end subroutine s_mpi_barrier


    !> The subroutine finalizes the MPI execution environment.


    impure subroutine s_mpi_finalize


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call mpi_finalize(ierr)

#endif


    end subroutine s_mpi_finalize


    !> The goal of this procedure is to populate the buffers of the cell-average conservative variables by communicating with the

    !! neighboring processors.


    subroutine s_mpi_sendrecv_variables_buffers(q_comm, mpi_dir, pbc_loc, nVar, pb_in, mv_in, q_T_sf)


        type(scalar_field), dimension(1:), intent(inout) :: q_comm

        real(stp), optional, dimension(idwbuff(1)%beg:,idwbuff(2)%beg:,idwbuff(3)%beg:,1:,1:), intent(inout) :: pb_in, mv_in

        integer, intent(in) :: mpi_dir, pbc_loc, nVar

        integer :: i, j, k, l, r, q  !< Generic loop iterators

        integer :: buffer_counts(1:3), buffer_count

        type(int_bounds_info) :: boundary_conditions(1:3)

        integer :: beg_end(1:2), grid_dims(1:3)

        integer :: dst_proc, src_proc, recv_tag, send_tag

        logical :: beg_end_geq_0, qbmm_comm, chem_diff_comm

        integer :: pack_offset, unpack_offset

        type(scalar_field), optional, intent(inout) :: q_T_sf


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        call nvtxstartrange("RHS-COMM-PACKBUF")


        qbmm_comm = .false.

        chem_diff_comm = .false.


        if (present(pb_in) .and. present(mv_in) .and. qbmm .and. .not. polytropic) then

            qbmm_comm = .true.

            v_size = nvar + 2*nb*nnode

            buffer_counts = (/buff_size*v_size*(n + 1)*(p + 1), buff_size*v_size*(m + 2*buff_size + 1)*(p + 1), &

                             & buff_size*v_size*(m + 2*buff_size + 1)*(n + 2*buff_size + 1)/)

        else if (present(q_t_sf) .and. chemistry .and. chem_params%diffusion) then

            chem_diff_comm = .true.

            v_size = nvar + 1

            buffer_counts = (/buff_size*v_size*(n + 1)*(p + 1), buff_size*v_size*(m + 2*buff_size + 1)*(p + 1), &

                             & buff_size*v_size*(m + 2*buff_size + 1)*(n + 2*buff_size + 1)/)

        else

            v_size = nvar

            buffer_counts = (/buff_size*v_size*(n + 1)*(p + 1), buff_size*v_size*(m + 2*buff_size + 1)*(p + 1), &

                             & buff_size*v_size*(m + 2*buff_size + 1)*(n + 2*buff_size + 1)/)

        end if


# 537 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 537 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc update device(v_size)

# 537 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 537 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target update to(v_size)

# 537 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


        buffer_count = buffer_counts(mpi_dir)

        boundary_conditions = (/bc_x, bc_y, bc_z/)

        beg_end = (/boundary_conditions(mpi_dir)%beg, boundary_conditions(mpi_dir)%end/)

        beg_end_geq_0 = beg_end(max(pbc_loc, 0) - pbc_loc + 1) >= 0


        ! Implements: pbc_loc bc_x >= 0 -> [send/recv]_tag [dst/src]_proc -1 (=0) 0 -> [1,0] [0,0] | 0 0 [1,0] [beg,beg] -1 (=0) 1

        ! -> [0,0] [1,0] | 0 1 [0,0] [end,beg] +1 (=1) 0 -> [0,1] [1,1] | 1 0 [0,1] [end,end] +1 (=1) 1 -> [1,1] [0,1] | 1 1 [1,1]

        ! [beg,end]


        send_tag = f_logical_to_int(.not. f_xor(beg_end_geq_0, pbc_loc == 1))

        recv_tag = f_logical_to_int(pbc_loc == 1)


        dst_proc = beg_end(1 + f_logical_to_int(f_xor(pbc_loc == 1, beg_end_geq_0)))

        src_proc = beg_end(1 + f_logical_to_int(pbc_loc == 1))


        grid_dims = (/m, n, p/)


        pack_offset = 0

        if (f_xor(pbc_loc == 1, beg_end_geq_0)) then

            pack_offset = grid_dims(mpi_dir) - buff_size + 1

        end if


        unpack_offset = 0

        if (pbc_loc == 1) then

            unpack_offset = grid_dims(mpi_dir) + buff_size + 1

        end if


        ! Pack Buffer to Send

# 568 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (mpi_dir == 1) then

# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 570 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    do l = 0, p

                        do k = 0, n

                            do j = 0, buff_size - 1

                                do i = 1, nvar

                                    r = (i - 1) + v_size*(j + buff_size*(k + (n + 1)*l))

                                    buff_send(r) = real(q_comm(i)%sf(j + pack_offset, k, l), kind=wp)

                                end do

                            end do

                        end do

                    end do


# 581 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 581 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 581 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 581 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 581 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 581 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


                    if (chem_diff_comm) then


# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(3) gang vector default(present) private(r)

# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(3) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 584 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, n

                                do j = 0, buff_size - 1

                                    r = nvar + v_size*(j + buff_size*(k + (n + 1)*l))

                                    buff_send(r) = real(q_t_sf%sf(j + pack_offset, k, l), kind=wp)

                                end do

                            end do

                        end do


# 593 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 593 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 593 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 593 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 593 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 593 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if


                    if (qbmm_comm) then


# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 597 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, n

                                do j = 0, buff_size - 1

                                    do i = nvar + 1, nvar + nnode

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + v_size*(j + buff_size*(k + (n + 1)*l))

                                            buff_send(r) = real(pb_in(j + pack_offset, k, l, i - nvar, q), kind=wp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 610 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 610 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 610 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 610 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 610 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 610 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 612 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, n

                                do j = 0, buff_size - 1

                                    do i = nvar + 1, nvar + nnode

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + nb*nnode + v_size*(j + buff_size*(k + (n + 1)*l))

                                            buff_send(r) = real(mv_in(j + pack_offset, k, l, i - nvar, q), kind=wp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 625 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 625 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 625 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 625 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 625 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 625 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if

# 750 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 568 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (mpi_dir == 2) then

# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 628 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    do i = 1, nvar

                        do l = 0, p

                            do k = 0, buff_size - 1

                                do j = -buff_size, m + buff_size

                                    r = (i - 1) + v_size*((j + buff_size) + (m + 2*buff_size + 1)*(k + buff_size*l))

                                    buff_send(r) = real(q_comm(i)%sf(j, k + pack_offset, l), kind=wp)

                                end do

                            end do

                        end do

                    end do


# 639 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 639 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 639 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 639 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 639 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 639 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


                    if (chem_diff_comm) then


# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(3) gang vector default(present) private(r)

# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(3) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 642 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, buff_size - 1

                                do j = -buff_size, m + buff_size

                                    r = nvar + v_size*((j + buff_size) + (m + 2*buff_size + 1)*(k + buff_size*l))

                                    buff_send(r) = real(q_t_sf%sf(j, k + pack_offset, l), kind=wp)

                                end do

                            end do

                        end do


# 651 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 651 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 651 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 651 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 651 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 651 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if


                    if (qbmm_comm) then


# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 655 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = 0, p

                                do k = 0, buff_size - 1

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + v_size*((j + buff_size) + (m + 2*buff_size + 1)*(k &

                                                 & + buff_size*l))

                                            buff_send(r) = real(pb_in(j, k + pack_offset, l, i - nvar, q), kind=wp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 669 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 669 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 669 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 669 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 669 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 669 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 671 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = 0, p

                                do k = 0, buff_size - 1

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + nb*nnode + v_size*((j + buff_size) + (m + 2*buff_size &

                                                 & + 1)*(k + buff_size*l))

                                            buff_send(r) = real(mv_in(j, k + pack_offset, l, i - nvar, q), kind=wp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 685 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 685 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 685 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 685 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 685 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 685 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if

# 750 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 568 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (mpi_dir == 3) then

# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 688 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    do i = 1, nvar

                        do l = 0, buff_size - 1

                            do k = -buff_size, n + buff_size

                                do j = -buff_size, m + buff_size

                                    r = (i - 1) + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k + buff_size) + (n &

                                         & + 2*buff_size + 1)*l))

                                    buff_send(r) = real(q_comm(i)%sf(j, k, l + pack_offset), kind=wp)

                                end do

                            end do

                        end do

                    end do


# 700 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 700 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 700 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 700 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 700 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 700 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


                    if (chem_diff_comm) then


# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(3) gang vector default(present) private(r)

# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(3) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 703 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, buff_size - 1

                            do k = -buff_size, n + buff_size

                                do j = -buff_size, m + buff_size

                                    r = nvar + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k + buff_size) + (n &

                                                       & + 2*buff_size + 1)*l))

                                    buff_send(r) = real(q_t_sf%sf(j, k, l + pack_offset), kind=wp)

                                end do

                            end do

                        end do


# 713 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 713 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 713 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 713 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 713 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 713 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if


                    if (qbmm_comm) then


# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 717 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = 0, buff_size - 1

                                do k = -buff_size, n + buff_size

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k &

                                                 & + buff_size) + (n + 2*buff_size + 1)*l))

                                            buff_send(r) = real(pb_in(j, k, l + pack_offset, i - nvar, q), kind=wp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 731 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 731 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 731 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 731 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 731 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 731 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 733 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = 0, buff_size - 1

                                do k = -buff_size, n + buff_size

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + nb*nnode + v_size*((j + buff_size) + (m + 2*buff_size &

                                                 & + 1)*((k + buff_size) + (n + 2*buff_size + 1)*l))

                                            buff_send(r) = real(mv_in(j, k, l + pack_offset, i - nvar, q), kind=wp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 747 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 747 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 747 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 747 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 747 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 747 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if

# 750 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 752 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

        call nvtxendrange  ! Packbuf


        ! Send/Recv

#ifdef MFC_SIMULATION

# 757 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (rdma_mpi .eqv. .false.) then

# 769 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                    call nvtxstartrange("RHS-COMM-DEV2HOST")


# 770 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 770 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc update host(buff_send)

# 770 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 770 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target update from(buff_send)

# 770 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    call nvtxendrange

                    call nvtxstartrange("RHS-COMM-SENDRECV-NO-RMDA")


                    call mpi_sendrecv(buff_send, buffer_count, mpi_p, dst_proc, send_tag, buff_recv, buffer_count, mpi_p, &

                                      & src_proc, recv_tag, mpi_comm_world, mpi_status_ignore, ierr)


                    call nvtxendrange  ! RHS-MPI-SENDRECV-(NO)-RDMA


                    call nvtxstartrange("RHS-COMM-HOST2DEV")


# 780 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 780 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc update device(buff_recv)

# 780 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 780 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target update to(buff_recv)

# 780 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    call nvtxendrange

# 783 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 757 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (rdma_mpi .eqv. .true.) then

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc host_data use_device(buff_send, buff_recv)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call nvtxstartrange("RHS-COMM-SENDRECV-RDMA")

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call mpi_sendrecv(buff_send, buffer_count, mpi_p, dst_proc, send_tag, buff_recv, buffer_count, mpi_p, &

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                                          & src_proc, recv_tag, mpi_comm_world, mpi_status_ignore, ierr)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call nvtxendrange  ! RHS-MPI-SENDRECV-(NO)-RDMA

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end host_data

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target data use_device_addr(buff_send, buff_recv)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call nvtxstartrange("RHS-COMM-SENDRECV-RDMA")

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call mpi_sendrecv(buff_send, buffer_count, mpi_p, dst_proc, send_tag, buff_recv, buffer_count, mpi_p, &

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                                          & src_proc, recv_tag, mpi_comm_world, mpi_status_ignore, ierr)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call nvtxendrange  ! RHS-MPI-SENDRECV-(NO)-RDMA

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target data

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#else

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call nvtxstartrange("RHS-COMM-SENDRECV-RDMA")

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call mpi_sendrecv(buff_send, buffer_count, mpi_p, dst_proc, send_tag, buff_recv, buffer_count, mpi_p, &

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                                          & src_proc, recv_tag, mpi_comm_world, mpi_status_ignore, ierr)

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

                        call nvtxendrange  ! RHS-MPI-SENDRECV-(NO)-RDMA

# 759 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

# 767 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 767 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 767 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc wait

# 767 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 767 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp barrier

# 767 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

# 783 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 785 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#else

        call mpi_sendrecv(buff_send, buffer_count, mpi_p, dst_proc, send_tag, buff_recv, buffer_count, mpi_p, src_proc, recv_tag, &

                          & mpi_comm_world, mpi_status_ignore, ierr)

#endif


        ! Unpack Received Buffer

        call nvtxstartrange("RHS-COMM-UNPACKBUF")

# 793 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (mpi_dir == 1) then

# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 795 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    do l = 0, p

                        do k = 0, n

                            do j = -buff_size, -1

                                do i = 1, nvar

                                    r = (i - 1) + v_size*(j + buff_size*((k + 1) + (n + 1)*l))

                                    q_comm(i)%sf(j + unpack_offset, k, l) = real(buff_recv(r), kind=stp)

#if defined(__INTEL_COMPILER)

                                    if (ieee_is_nan(q_comm(i)%sf(j + unpack_offset, k, l))) then

                                        print *, "Error", j, k, l, i

                                        call s_mpi_abort("NaN(s) in recv")

                                    end if

#endif

                                end do

                            end do

                        end do

                    end do


# 812 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 812 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 812 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 812 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 812 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 812 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


                    if (chem_diff_comm) then


# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(3) gang vector default(present) private(r)

# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(3) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 815 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, n

                                do j = -buff_size, -1

                                    r = nvar + v_size*(j + buff_size*((k + 1) + (n + 1)*l))

                                    q_t_sf%sf(j + unpack_offset, k, l) = real(buff_recv(r), kind=stp)

#if defined(__INTEL_COMPILER)

                                    if (ieee_is_nan(q_t_sf%sf(j + unpack_offset, k, l))) then

                                        print *, "Error", j, k, l

                                        call s_mpi_abort("NaN(s) in recv")

                                    end if

#endif

                                end do

                            end do

                        end do


# 830 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 830 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 830 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 830 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 830 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 830 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if


                    if (qbmm_comm) then


# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 834 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, n

                                do j = -buff_size, -1

                                    do i = nvar + 1, nvar + nnode

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + v_size*(j + buff_size*((k + 1) + (n + 1)*l))

                                            pb_in(j + unpack_offset, k, l, i - nvar, q) = real(buff_recv(r), kind=stp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 847 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 847 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 847 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 847 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 847 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 847 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 849 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = 0, n

                                do j = -buff_size, -1

                                    do i = nvar + 1, nvar + nnode

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + nb*nnode + v_size*(j + buff_size*((k + 1) + (n + 1)*l))

                                            mv_in(j + unpack_offset, k, l, i - nvar, q) = real(buff_recv(r), kind=stp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 862 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 862 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 862 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 862 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 862 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 862 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if

# 1011 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 793 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (mpi_dir == 2) then

# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 865 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    do i = 1, nvar

                        do l = 0, p

                            do k = -buff_size, -1

                                do j = -buff_size, m + buff_size

                                    r = (i - 1) + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k + buff_size) + buff_size*l))

                                    q_comm(i)%sf(j, k + unpack_offset, l) = real(buff_recv(r), kind=stp)

#if defined(__INTEL_COMPILER)

                                    if (ieee_is_nan(q_comm(i)%sf(j, k + unpack_offset, l))) then

                                        print *, "Error", j, k, l, i

                                        call s_mpi_abort("NaN(s) in recv")

                                    end if

#endif

                                end do

                            end do

                        end do

                    end do


# 882 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 882 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 882 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 882 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 882 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 882 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


                    if (chem_diff_comm) then


# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(3) gang vector default(present) private(r)

# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(3) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 885 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = 0, p

                            do k = -buff_size, -1

                                do j = -buff_size, m + buff_size

                                    r = nvar + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k + buff_size) + buff_size*l))

                                    q_t_sf%sf(j, k + unpack_offset, l) = real(buff_recv(r), kind=stp)

#if defined(__INTEL_COMPILER)

                                    if (ieee_is_nan(q_t_sf%sf(j, k + unpack_offset, l))) then

                                        print *, "Error", j, k, l

                                        call s_mpi_abort("NaN(s) in recv")

                                    end if

#endif

                                end do

                            end do

                        end do


# 900 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 900 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 900 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 900 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 900 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 900 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if


                    if (qbmm_comm) then


# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 904 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = 0, p

                                do k = -buff_size, -1

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k &

                                                 & + buff_size) + buff_size*l))

                                            pb_in(j, k + unpack_offset, l, i - nvar, q) = real(buff_recv(r), kind=stp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 918 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 918 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 918 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 918 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 918 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 918 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 920 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = 0, p

                                do k = -buff_size, -1

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + nb*nnode + v_size*((j + buff_size) + (m + 2*buff_size &

                                                 & + 1)*((k + buff_size) + buff_size*l))

                                            mv_in(j, k + unpack_offset, l, i - nvar, q) = real(buff_recv(r), kind=stp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 934 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 934 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 934 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 934 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 934 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 934 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if

# 1011 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 793 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            if (mpi_dir == 3) then

# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(4) gang vector default(present) private(r)

# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(4) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 937 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    do i = 1, nvar

                        do l = -buff_size, -1

                            do k = -buff_size, n + buff_size

                                do j = -buff_size, m + buff_size

                                    r = (i - 1) + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k + buff_size) + (n &

                                         & + 2*buff_size + 1)*(l + buff_size)))

                                    q_comm(i)%sf(j, k, l + unpack_offset) = real(buff_recv(r), kind=stp)

#if defined(__INTEL_COMPILER)

                                    if (ieee_is_nan(q_comm(i)%sf(j, k, l + unpack_offset))) then

                                        print *, "Error", j, k, l, i

                                        call s_mpi_abort("NaN(s) in recv")

                                    end if

#endif

                                end do

                            end do

                        end do

                    end do


# 955 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 955 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 955 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 955 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 955 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 955 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


                    if (chem_diff_comm) then


# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(3) gang vector default(present) private(r)

# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(3) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 958 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do l = -buff_size, -1

                            do k = -buff_size, n + buff_size

                                do j = -buff_size, m + buff_size

                                    r = nvar + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k + buff_size) + (n &

                                                       & + 2*buff_size + 1)*(l + buff_size)))

                                    q_t_sf%sf(j, k, l + unpack_offset) = real(buff_recv(r), kind=stp)

#if defined(__INTEL_COMPILER)

                                    if (ieee_is_nan(q_t_sf%sf(j, k, l + unpack_offset))) then

                                        print *, "Error", j, k, l

                                        call s_mpi_abort("NaN(s) in recv")

                                    end if

#endif

                                end do

                            end do

                        end do


# 974 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 974 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 974 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 974 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 974 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 974 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if


                    if (qbmm_comm) then


# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 978 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = -buff_size, -1

                                do k = -buff_size, n + buff_size

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + v_size*((j + buff_size) + (m + 2*buff_size + 1)*((k &

                                                 & + buff_size) + (n + 2*buff_size + 1)*(l + buff_size)))

                                            pb_in(j, k, l + unpack_offset, i - nvar, q) = real(buff_recv(r), kind=stp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 992 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 992 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 992 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 992 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 992 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 992 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif


# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc parallel loop collapse(5) gang vector default(present) private(r)

# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp target teams loop defaultmap(firstprivate:scalar) bind(teams,parallel) collapse(5) defaultmap(tofrom:aggregate) defaultmap(tofrom:allocatable) defaultmap(tofrom:pointer) private(r)

# 994 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                        do i = nvar + 1, nvar + nnode

                            do l = -buff_size, -1

                                do k = -buff_size, n + buff_size

                                    do j = -buff_size, m + buff_size

                                        do q = 1, nb

                                            r = (i - 1) + (q - 1)*nnode + nb*nnode + v_size*((j + buff_size) + (m + 2*buff_size &

                                                 & + 1)*((k + buff_size) + (n + 2*buff_size + 1)*(l + buff_size)))

                                            mv_in(j, k, l + unpack_offset, i - nvar, q) = real(buff_recv(r), kind=stp)

                                        end do

                                    end do

                                end do

                            end do

                        end do


# 1008 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#if defined(MFC_OpenACC)

# 1008 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$acc end parallel loop

# 1008 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#elif defined(MFC_OpenMP)

# 1008 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"


# 1008 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

!$omp end target teams loop

# 1008 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

#endif

                    end if

# 1011 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

            end if

# 1013 "/home/runner/work/MFC/MFC/src/common/m_mpi_common.fpp"

        call nvtxendrange

#endif


    end subroutine s_mpi_sendrecv_variables_buffers


    !> Decompose the computational domain among processors by balancing cells per rank in each coordinate direction.


    subroutine s_mpi_decompose_computational_domain


#ifdef MFC_MPI

        integer :: num_procs_x, num_procs_y, num_procs_z  !< Optimal number of processors in the x-, y- and z-directions

        !> Non-optimal number of processors in the x-, y- and z-directions

        real(wp) :: tmp_num_procs_x, tmp_num_procs_y, tmp_num_procs_z

        real(wp) :: fct_min        !< Processor factorization (fct) minimization parameter

        integer  :: MPI_COMM_CART  !< Cartesian processor topology communicator

        integer  :: rem_cells      !< Remaining cells after distribution among processors

        integer  :: recon_order    !< WENO or MUSCL reconstruction order

        integer  :: i, j           !< Generic loop iterators

        integer  :: ierr           !< Generic flag used to identify and report MPI errors


        if (recon_type == weno_type) then

            recon_order = weno_order

        else

            recon_order = muscl_order

        end if


        if (num_procs == 1 .and. parallel_io) then

            do i = 1, num_dims

                start_idx(i) = 0

            end do

            return

        end if


        if (igr) then

            recon_order = igr_order

        end if


        ! 3D Cartesian Processor Topology

        if (n > 0) then

            if (p > 0) then

                if (fft_wrt) then

                    ! Initial estimate of optimal processor topology

                    num_procs_x = 1

                    num_procs_y = 1

                    num_procs_z = num_procs

                    ierr = -1


                    ! Benchmarking the quality of this initial guess

                    tmp_num_procs_y = num_procs_y

                    tmp_num_procs_z = num_procs_z

                    fct_min = 10._wp*abs((n + 1)/tmp_num_procs_y - (p + 1)/tmp_num_procs_z)


                    ! Optimization of the initial processor topology

                    do i = 1, num_procs

                        if (mod(num_procs, i) == 0 .and. (n + 1)/i >= num_stcls_min*recon_order) then

                            tmp_num_procs_y = i

                            tmp_num_procs_z = num_procs/i


                            if (fct_min >= abs((n + 1)/tmp_num_procs_y - (p + 1)/tmp_num_procs_z) .and. (p + 1) &

                                & /tmp_num_procs_z >= num_stcls_min*recon_order) then

                                num_procs_y = i

                                num_procs_z = num_procs/i

                                fct_min = abs((n + 1)/tmp_num_procs_y - (p + 1)/tmp_num_procs_z)

                                ierr = 0

                            end if

                        end if

                    end do

                else

                    if (cyl_coord .and. p > 0) then

                        ! Pencil blocking for cylindrical coordinates (Fourier filter near axis)


                        ! Initial values of the processor factorization optimization

                        num_procs_x = 1

                        num_procs_y = num_procs

                        num_procs_z = 1

                        ierr = -1


                        ! Computing minimization variable for these initial values

                        tmp_num_procs_x = num_procs_x

                        tmp_num_procs_y = num_procs_y

                        tmp_num_procs_z = num_procs_z

                        fct_min = 10._wp*abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y)


                        ! Searching for optimal computational domain distribution

                        do i = 1, num_procs

                            if (mod(num_procs, i) == 0 .and. (m + 1)/i >= num_stcls_min*recon_order) then

                                tmp_num_procs_x = i

                                tmp_num_procs_y = num_procs/i


                                if (fct_min >= abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y) .and. (n + 1) &

                                    & /tmp_num_procs_y >= num_stcls_min*recon_order) then

                                    num_procs_x = i

                                    num_procs_y = num_procs/i

                                    fct_min = abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y)

                                    ierr = 0

                                end if

                            end if

                        end do

                    else

                        ! Initial estimate of optimal processor topology

                        num_procs_x = 1

                        num_procs_y = 1

                        num_procs_z = num_procs

                        ierr = -1


                        ! Benchmarking the quality of this initial guess

                        tmp_num_procs_x = num_procs_x

                        tmp_num_procs_y = num_procs_y

                        tmp_num_procs_z = num_procs_z

                        fct_min = 10._wp*abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y) + 10._wp*abs((n + 1) &

                                             & /tmp_num_procs_y - (p + 1)/tmp_num_procs_z)


                        ! Optimization of the initial processor topology

                        do i = 1, num_procs

                            if (mod(num_procs, i) == 0 .and. (m + 1)/i >= num_stcls_min*recon_order) then

                                do j = 1, num_procs/i

                                    if (mod(num_procs/i, j) == 0 .and. (n + 1)/j >= num_stcls_min*recon_order) then

                                        tmp_num_procs_x = i

                                        tmp_num_procs_y = j

                                        tmp_num_procs_z = num_procs/(i*j)


                                        if (fct_min >= abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y) + abs((n + 1) &

                                            & /tmp_num_procs_y - (p + 1)/tmp_num_procs_z) .and. (p + 1) &

                                            & /tmp_num_procs_z >= num_stcls_min*recon_order) then

                                            num_procs_x = i

                                            num_procs_y = j

                                            num_procs_z = num_procs/(i*j)

                                            fct_min = abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y) + abs((n + 1) &

                                                          & /tmp_num_procs_y - (p + 1)/tmp_num_procs_z)

                                            ierr = 0

                                        end if

                                    end if

                                end do

                            end if

                        end do

                    end if

                end if


                ! Verifying that a valid decomposition of the computational domain has been established. If not, the simulation

                ! exits.

                if (proc_rank == 0 .and. ierr == -1) then

                    call s_mpi_abort('Unsupported combination of values ' // 'of num_procs, m, n, p and ' &

                                     & // 'weno/muscl/igr_order. Exiting.')

                end if


                ! Creating new communicator using the Cartesian topology

                call mpi_cart_create(mpi_comm_world, 3, (/num_procs_x, num_procs_y, num_procs_z/), (/.true., .true., .true./), &

                                     & .false., mpi_comm_cart, ierr)


                ! Finding the Cartesian coordinates of the local process

                call mpi_cart_coords(mpi_comm_cart, proc_rank, 3, proc_coords, ierr)


                ! Global Parameters for z-direction


                ! Number of remaining cells

                rem_cells = mod(p + 1, num_procs_z)


                ! Optimal number of cells per processor

                p = (p + 1)/num_procs_z - 1


                ! Distributing the remaining cells

                do i = 1, rem_cells

                    if (proc_coords(3) == i - 1) then

                        p = p + 1; exit

                    end if

                end do


                ! Boundary condition at the beginning

                if (proc_coords(3) > 0 .or. (bc_z%beg == bc_periodic .and. num_procs_z > 1)) then

                    proc_coords(3) = proc_coords(3) - 1

                    call mpi_cart_rank(mpi_comm_cart, proc_coords, bc_z%beg, ierr)

                    proc_coords(3) = proc_coords(3) + 1

                end if


                ! Boundary condition at the end

                if (proc_coords(3) < num_procs_z - 1 .or. (bc_z%end == bc_periodic .and. num_procs_z > 1)) then

                    proc_coords(3) = proc_coords(3) + 1

                    call mpi_cart_rank(mpi_comm_cart, proc_coords, bc_z%end, ierr)

                    proc_coords(3) = proc_coords(3) - 1

                end if


#ifdef MFC_POST_PROCESS

                ! Ghost zone at the beginning

                if (proc_coords(3) > 0 .and. format == 1) then

                    offset_z%beg = 2

                else

                    offset_z%beg = 0

                end if


                ! Ghost zone at the end

                if (proc_coords(3) < num_procs_z - 1 .and. format == 1) then

                    offset_z%end = 2

                else

                    offset_z%end = 0

                end if

#endif


                ! Beginning and end sub-domain boundary locations

                if (parallel_io) then

                    if (proc_coords(3) < rem_cells) then

                        start_idx(3) = (p + 1)*proc_coords(3)

                    else

                        start_idx(3) = (p + 1)*proc_coords(3) + rem_cells

                    end if

                else

#ifdef MFC_PRE_PROCESS

                    if (old_grid .neqv. .true.) then

                        dz = (z_domain%end - z_domain%beg)/real(p_glb + 1, wp)


                        if (proc_coords(3) < rem_cells) then

                            z_domain%beg = z_domain%beg + dz*real((p + 1)*proc_coords(3))

                            z_domain%end = z_domain%end - dz*real((p + 1)*(num_procs_z - proc_coords(3) - 1) - (num_procs_z &

                                                                  & - rem_cells))

                        else

                            z_domain%beg = z_domain%beg + dz*real((p + 1)*proc_coords(3) + rem_cells)

                            z_domain%end = z_domain%end - dz*real((p + 1)*(num_procs_z - proc_coords(3) - 1))

                        end if

                    end if

#endif

                end if


                ! 2D Cartesian Processor Topology

            else

                ! Initial estimate of optimal processor topology

                num_procs_x = 1

                num_procs_y = num_procs

                ierr = -1


                ! Benchmarking the quality of this initial guess

                tmp_num_procs_x = num_procs_x

                tmp_num_procs_y = num_procs_y

                fct_min = 10._wp*abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y)


                ! Optimization of the initial processor topology

                do i = 1, num_procs

                    if (mod(num_procs, i) == 0 .and. (m + 1)/i >= num_stcls_min*recon_order) then

                        tmp_num_procs_x = i

                        tmp_num_procs_y = num_procs/i


                        if (fct_min >= abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y) .and. (n + 1) &

                            & /tmp_num_procs_y >= num_stcls_min*recon_order) then

                            num_procs_x = i

                            num_procs_y = num_procs/i

                            fct_min = abs((m + 1)/tmp_num_procs_x - (n + 1)/tmp_num_procs_y)

                            ierr = 0

                        end if

                    end if

                end do


                ! Verifying that a valid decomposition of the computational domain has been established. If not, the simulation

                ! exits.

                if (proc_rank == 0 .and. ierr == -1) then

                    call s_mpi_abort('Unsupported combination of values ' // 'of num_procs, m, n and ' &

                                     & // 'weno/muscl/igr_order. Exiting.')

                end if


                ! Creating new communicator using the Cartesian topology

                call mpi_cart_create(mpi_comm_world, 2, (/num_procs_x, num_procs_y/), (/.true., .true./), .false., mpi_comm_cart, &

                                     & ierr)


                ! Finding the Cartesian coordinates of the local process

                call mpi_cart_coords(mpi_comm_cart, proc_rank, 2, proc_coords, ierr)

            end if


            ! Global Parameters for y-direction


            ! Number of remaining cells

            rem_cells = mod(n + 1, num_procs_y)


            ! Optimal number of cells per processor

            n = (n + 1)/num_procs_y - 1


            ! Distributing the remaining cells

            do i = 1, rem_cells

                if (proc_coords(2) == i - 1) then

                    n = n + 1; exit

                end if

            end do


            ! Boundary condition at the beginning

            if (proc_coords(2) > 0 .or. (bc_y%beg == bc_periodic .and. num_procs_y > 1)) then

                proc_coords(2) = proc_coords(2) - 1

                call mpi_cart_rank(mpi_comm_cart, proc_coords, bc_y%beg, ierr)

                proc_coords(2) = proc_coords(2) + 1

            end if


            ! Boundary condition at the end

            if (proc_coords(2) < num_procs_y - 1 .or. (bc_y%end == bc_periodic .and. num_procs_y > 1)) then

                proc_coords(2) = proc_coords(2) + 1

                call mpi_cart_rank(mpi_comm_cart, proc_coords, bc_y%end, ierr)

                proc_coords(2) = proc_coords(2) - 1

            end if


#ifdef MFC_POST_PROCESS

            ! Ghost zone at the beginning

            if (proc_coords(2) > 0 .and. format == 1) then

                offset_y%beg = 2

            else

                offset_y%beg = 0

            end if


            ! Ghost zone at the end

            if (proc_coords(2) < num_procs_y - 1 .and. format == 1) then

                offset_y%end = 2

            else

                offset_y%end = 0

            end if

#endif


            ! Beginning and end sub-domain boundary locations

            if (parallel_io) then

                if (proc_coords(2) < rem_cells) then

                    start_idx(2) = (n + 1)*proc_coords(2)

                else

                    start_idx(2) = (n + 1)*proc_coords(2) + rem_cells

                end if

            else

#ifdef MFC_PRE_PROCESS

                if (old_grid .neqv. .true.) then

                    dy = (y_domain%end - y_domain%beg)/real(n_glb + 1, wp)


                    if (proc_coords(2) < rem_cells) then

                        y_domain%beg = y_domain%beg + dy*real((n + 1)*proc_coords(2))

                        y_domain%end = y_domain%end - dy*real((n + 1)*(num_procs_y - proc_coords(2) - 1) - (num_procs_y &

                                                              & - rem_cells))

                    else

                        y_domain%beg = y_domain%beg + dy*real((n + 1)*proc_coords(2) + rem_cells)

                        y_domain%end = y_domain%end - dy*real((n + 1)*(num_procs_y - proc_coords(2) - 1))

                    end if

                end if

#endif

            end if


            ! 1D Cartesian Processor Topology

        else

            ! Optimal processor topology

            num_procs_x = num_procs


            ! Creating new communicator using the Cartesian topology

            call mpi_cart_create(mpi_comm_world, 1, (/num_procs_x/), (/.true./), .false., mpi_comm_cart, ierr)


            ! Finding the Cartesian coordinates of the local process

            call mpi_cart_coords(mpi_comm_cart, proc_rank, 1, proc_coords, ierr)

        end if


        ! Global Parameters for x-direction


        ! Number of remaining cells

        rem_cells = mod(m + 1, num_procs_x)


        ! Optimal number of cells per processor

        m = (m + 1)/num_procs_x - 1


        ! Distributing the remaining cells

        do i = 1, rem_cells

            if (proc_coords(1) == i - 1) then

                m = m + 1; exit

            end if

        end do


        call s_update_cell_bounds(cells_bounds, m, n, p)


        ! Boundary condition at the beginning

        if (proc_coords(1) > 0 .or. (bc_x%beg == bc_periodic .and. num_procs_x > 1)) then

            proc_coords(1) = proc_coords(1) - 1

            call mpi_cart_rank(mpi_comm_cart, proc_coords, bc_x%beg, ierr)

            proc_coords(1) = proc_coords(1) + 1

        end if


        ! Boundary condition at the end

        if (proc_coords(1) < num_procs_x - 1 .or. (bc_x%end == bc_periodic .and. num_procs_x > 1)) then

            proc_coords(1) = proc_coords(1) + 1

            call mpi_cart_rank(mpi_comm_cart, proc_coords, bc_x%end, ierr)

            proc_coords(1) = proc_coords(1) - 1

        end if


#ifdef MFC_POST_PROCESS

        ! Ghost zone at the beginning

        if (proc_coords(1) > 0 .and. format == 1) then

            offset_x%beg = 2

        else

            offset_x%beg = 0

        end if


        ! Ghost zone at the end

        if (proc_coords(1) < num_procs_x - 1 .and. format == 1) then

            offset_x%end = 2

        else

            offset_x%end = 0

        end if

#endif


        ! Beginning and end sub-domain boundary locations

        if (parallel_io) then

            if (proc_coords(1) < rem_cells) then

                start_idx(1) = (m + 1)*proc_coords(1)

            else

                start_idx(1) = (m + 1)*proc_coords(1) + rem_cells

            end if

        else

#ifdef MFC_PRE_PROCESS

            if (old_grid .neqv. .true.) then

                dx = (x_domain%end - x_domain%beg)/real(m_glb + 1, wp)


                if (proc_coords(1) < rem_cells) then

                    x_domain%beg = x_domain%beg + dx*real((m + 1)*proc_coords(1))

                    x_domain%end = x_domain%end - dx*real((m + 1)*(num_procs_x - proc_coords(1) - 1) - (num_procs_x - rem_cells))

                else

                    x_domain%beg = x_domain%beg + dx*real((m + 1)*proc_coords(1) + rem_cells)

                    x_domain%end = x_domain%end - dx*real((m + 1)*(num_procs_x - proc_coords(1) - 1))

                end if

            end if

#endif

        end if

#endif


    end subroutine s_mpi_decompose_computational_domain


    !> The goal of this procedure is to populate the buffers of the grid variables by communicating with the neighboring processors.

    !! Note that only the buffers of the cell-width distributions are handled in such a way. This is because the buffers of

    !! cell-boundary locations may be calculated directly from those of the cell-width distributions.

#ifndef MFC_PRE_PROCESS


    subroutine s_mpi_sendrecv_grid_variables_buffers(mpi_dir, pbc_loc)


        integer, intent(in) :: mpi_dir

        integer, intent(in) :: pbc_loc


#ifdef MFC_MPI

        integer :: ierr  !< Generic flag used to identify and report MPI errors


        if (mpi_dir == 1) then

            if (pbc_loc == -1) then  ! PBC at the beginning


                if (bc_x%end >= 0) then  ! PBC at the beginning and end

                    call mpi_sendrecv(dx(m - buff_size + 1), buff_size, mpi_p, bc_x%end, 0, dx(-buff_size), buff_size, mpi_p, &

                                      & bc_x%beg, 0, mpi_comm_world, mpi_status_ignore, ierr)

                else  ! PBC at the beginning only

                    call mpi_sendrecv(dx(0), buff_size, mpi_p, bc_x%beg, 1, dx(-buff_size), buff_size, mpi_p, bc_x%beg, 0, &

                                      & mpi_comm_world, mpi_status_ignore, ierr)

                end if

            else  ! PBC at the end

                if (bc_x%beg >= 0) then  ! PBC at the end and beginning

                    call mpi_sendrecv(dx(0), buff_size, mpi_p, bc_x%beg, 1, dx(m + 1), buff_size, mpi_p, bc_x%end, 1, &

                                      & mpi_comm_world, mpi_status_ignore, ierr)

                else  ! PBC at the end only

                    call mpi_sendrecv(dx(m - buff_size + 1), buff_size, mpi_p, bc_x%end, 0, dx(m + 1), buff_size, mpi_p, &

                                      & bc_x%end, 1, mpi_comm_world, mpi_status_ignore, ierr)

                end if

            end if

        else if (mpi_dir == 2) then

            if (pbc_loc == -1) then  ! PBC at the beginning


                if (bc_y%end >= 0) then  ! PBC at the beginning and end

                    call mpi_sendrecv(dy(n - buff_size + 1), buff_size, mpi_p, bc_y%end, 0, dy(-buff_size), buff_size, mpi_p, &

                                      & bc_y%beg, 0, mpi_comm_world, mpi_status_ignore, ierr)

                else  ! PBC at the beginning only

                    call mpi_sendrecv(dy(0), buff_size, mpi_p, bc_y%beg, 1, dy(-buff_size), buff_size, mpi_p, bc_y%beg, 0, &

                                      & mpi_comm_world, mpi_status_ignore, ierr)

                end if

            else  ! PBC at the end

                if (bc_y%beg >= 0) then  ! PBC at the end and beginning

                    call mpi_sendrecv(dy(0), buff_size, mpi_p, bc_y%beg, 1, dy(n + 1), buff_size, mpi_p, bc_y%end, 1, &

                                      & mpi_comm_world, mpi_status_ignore, ierr)

                else  ! PBC at the end only

                    call mpi_sendrecv(dy(n - buff_size + 1), buff_size, mpi_p, bc_y%end, 0, dy(n + 1), buff_size, mpi_p, &

                                      & bc_y%end, 1, mpi_comm_world, mpi_status_ignore, ierr)

                end if

            end if

        else

            if (pbc_loc == -1) then  ! PBC at the beginning


                if (bc_z%end >= 0) then  ! PBC at the beginning and end

                    call mpi_sendrecv(dz(p - buff_size + 1), buff_size, mpi_p, bc_z%end, 0, dz(-buff_size), buff_size, mpi_p, &

                                      & bc_z%beg, 0, mpi_comm_world, mpi_status_ignore, ierr)

                else  ! PBC at the beginning only

                    call mpi_sendrecv(dz(0), buff_size, mpi_p, bc_z%beg, 1, dz(-buff_size), buff_size, mpi_p, bc_z%beg, 0, &

                                      & mpi_comm_world, mpi_status_ignore, ierr)

                end if

            else  ! PBC at the end

                if (bc_z%beg >= 0) then  ! PBC at the end and beginning

                    call mpi_sendrecv(dz(0), buff_size, mpi_p, bc_z%beg, 1, dz(p + 1), buff_size, mpi_p, bc_z%end, 1, &

                                      & mpi_comm_world, mpi_status_ignore, ierr)

                else  ! PBC at the end only

                    call mpi_sendrecv(dz(p - buff_size + 1), buff_size, mpi_p, bc_z%end, 0, dz(p + 1), buff_size, mpi_p, &

                                      & bc_z%end, 1, mpi_comm_world, mpi_status_ignore, ierr)

                end if

            end if

        end if

#endif


    end subroutine s_mpi_sendrecv_grid_variables_buffers

#endif


    !> Module deallocation and/or disassociation procedures


    impure subroutine s_finalize_mpi_common_module


#ifdef MFC_MPI

        deallocate (buff_send, buff_recv)

#endif


    end subroutine s_finalize_mpi_common_module


end module m_mpi_common

q_cons_vf
type(scalar_field), dimension(sys_size), intent(inout) q_cons_vf
Definition m_phase_change.fpp.f90:1065

j
integer, intent(in) j
Definition m_phase_change.fpp.f90:1067

m_derived_types
Shared derived types for field data, patch geometry, bubble dynamics, and MPI I/O structures.
Definition m_derived_types.fpp.f90:317

m_global_parameters
Global parameters for the computational domain, fluid properties, and simulation algorithm configurat...
Definition m_global_parameters.fpp.f90:328

m_global_parameters::chemistry
logical, parameter chemistry
Chemistry modeling.
Definition m_global_parameters.fpp.f90:506

m_global_parameters::sys_size
integer sys_size
Number of unknowns in system of eqns.
Definition m_global_parameters.fpp.f90:822

m_global_parameters::buff_size
integer buff_size
Number of ghost cells for boundary condition storage.
Definition m_global_parameters.fpp.f90:927

m_global_parameters::chem_params
type(chemistry_parameters) chem_params
Definition m_global_parameters.fpp.f90:1178

m_global_parameters::polytropic
logical polytropic
Polytropic switch.
Definition m_global_parameters.fpp.f90:1074

m_global_parameters::qbmm
logical qbmm
Quadrature moment method.
Definition m_global_parameters.fpp.f90:1132

m_global_parameters::p
integer p
Definition m_global_parameters.fpp.f90:352

m_global_parameters::n
integer n
Definition m_global_parameters.fpp.f90:352

m_global_parameters::cells_bounds
type(cell_num_bounds) cells_bounds
Definition m_global_parameters.fpp.f90:356

m_global_parameters::nb
integer nb
Number of eq. bubble sizes.
Definition m_global_parameters.fpp.f90:1040

m_global_parameters::m
integer m
Definition m_global_parameters.fpp.f90:352

m_helper
Utility routines for bubble model setup, coordinate transforms, array sampling, and special functions...
Definition m_helper.fpp.f90:328

m_mpi_common
MPI communication layer: domain decomposition, halo exchange, reductions, and parallel I/O setup.
Definition m_mpi_common.fpp.f90:328

m_mpi_common::s_mpi_abort
impure subroutine s_mpi_abort(prnt, code)
The subroutine terminates the MPI execution environment.
Definition m_mpi_common.fpp.f90:859

m_mpi_common::s_initialize_mpi_common_module
impure subroutine s_initialize_mpi_common_module
Initialize the module.
Definition m_mpi_common.fpp.f90:388

m_mpi_common::s_mpi_gather_data
impure subroutine s_mpi_gather_data(my_vector, counts, gathered_vector, root)
Gather variable-length real vectors from all MPI ranks onto the root process.
Definition m_mpi_common.fpp.f90:641

m_mpi_common::s_mpi_barrier
impure subroutine s_mpi_barrier
Halts all processes until all have reached barrier.
Definition m_mpi_common.fpp.f90:890

m_mpi_common::s_mpi_initialize
impure subroutine s_mpi_initialize
Initialize the MPI execution environment and query the number of processors and local rank.
Definition m_mpi_common.fpp.f90:491

m_mpi_common::s_mpi_allreduce_vectors_sum
impure subroutine s_mpi_allreduce_vectors_sum(var_loc, var_glb, num_vectors, vector_length)
Reduce an array of vectors to their global sums across all MPI ranks.
Definition m_mpi_common.fpp.f90:758

m_mpi_common::buff_recv
real(wp), dimension(:), allocatable, private buff_recv
Primitive variable receive buffer for halo exchange.
Definition m_mpi_common.fpp.f90:356

m_mpi_common::s_initialize_mpi_data
impure subroutine s_initialize_mpi_data(q_cons_vf, ib_markers, beta)
Set up MPI I/O data views and variable pointers for parallel file output.
Definition m_mpi_common.fpp.f90:514

m_mpi_common::s_mpi_reduce_maxloc
impure subroutine s_mpi_reduce_maxloc(var_loc)
Reduce a 2-element variable to its global maximum value with the owning processor rank (MPI_MAXLOC)....
Definition m_mpi_common.fpp.f90:842

m_mpi_common::s_mpi_sendrecv_grid_variables_buffers
subroutine s_mpi_sendrecv_grid_variables_buffers(mpi_dir, pbc_loc)
The goal of this procedure is to populate the buffers of the grid variables by communicating with the...
Definition m_mpi_common.fpp.f90:2674

m_mpi_common::s_mpi_reduce_stability_criteria_extrema
impure subroutine s_mpi_reduce_stability_criteria_extrema(icfl_max_loc, vcfl_max_loc, rc_min_loc, icfl_max_glb, vcfl_max_glb, rc_min_glb)
The goal of this subroutine is to determine the global extrema of the stability criteria in the compu...
Definition m_mpi_common.fpp.f90:706

m_mpi_common::s_mpi_allreduce_sum
impure subroutine s_mpi_allreduce_sum(var_loc, var_glb)
Reduce a local real value to its global sum across all MPI ranks.
Definition m_mpi_common.fpp.f90:744

m_mpi_common::buff_send
real(wp), dimension(:), allocatable, private buff_send
Primitive variable send buffer for halo exchange.
Definition m_mpi_common.fpp.f90:355

m_mpi_common::s_mpi_allreduce_min
impure subroutine s_mpi_allreduce_min(var_loc, var_glb)
Reduce a local real value to its global minimum across all MPI ranks.
Definition m_mpi_common.fpp.f90:795

m_mpi_common::s_prohibit_abort
impure subroutine s_prohibit_abort(condition, message)
Print a case file error with the prohibited condition and message, then abort execution.
Definition m_mpi_common.fpp.f90:685

m_mpi_common::s_mpi_finalize
impure subroutine s_mpi_finalize
The subroutine finalizes the MPI execution environment.
Definition m_mpi_common.fpp.f90:901

m_mpi_common::s_initialize_mpi_data_ds
subroutine s_initialize_mpi_data_ds(q_cons_vf)
Set up MPI I/O data views for downsampled (coarsened) parallel file output.
Definition m_mpi_common.fpp.f90:595

m_mpi_common::s_mpi_allreduce_max
impure subroutine s_mpi_allreduce_max(var_loc, var_glb)
Reduce a local real value to its global maximum across all MPI ranks.
Definition m_mpi_common.fpp.f90:809

m_mpi_common::s_mpi_allreduce_integer_sum
impure subroutine s_mpi_allreduce_integer_sum(var_loc, var_glb)
Reduce a local integer value to its global sum across all MPI ranks.
Definition m_mpi_common.fpp.f90:779

m_mpi_common::s_mpi_sendrecv_variables_buffers
subroutine s_mpi_sendrecv_variables_buffers(q_comm, mpi_dir, pbc_loc, nvar, pb_in, mv_in, q_t_sf)
The goal of this procedure is to populate the buffers of the cell-average conservative variables by c...
Definition m_mpi_common.fpp.f90:913

m_mpi_common::v_size
integer, private v_size
Definition m_mpi_common.fpp.f90:342

m_mpi_common::mpi_bcast_time_step_values
impure subroutine mpi_bcast_time_step_values(proc_time, time_avg)
Gather per-rank time step wall-clock times onto rank 0 for performance reporting.
Definition m_mpi_common.fpp.f90:671

m_mpi_common::s_mpi_reduce_min
impure subroutine s_mpi_reduce_min(var_loc)
Reduce a local real value to its global minimum across all ranks.
Definition m_mpi_common.fpp.f90:823

m_mpi_common::s_finalize_mpi_common_module
impure subroutine s_finalize_mpi_common_module
Module deallocation and/or disassociation procedures.
Definition m_mpi_common.fpp.f90:2746

m_mpi_common::halo_size
integer(kind=8) halo_size
Definition m_mpi_common.fpp.f90:371

m_mpi_common::s_mpi_decompose_computational_domain
subroutine s_mpi_decompose_computational_domain
Decompose the computational domain among processors by balancing cells per rank in each coordinate di...
Definition m_mpi_common.fpp.f90:2259

m_nvtx
NVIDIA NVTX profiling API bindings for GPU performance instrumentation.
Definition m_nvtx.f90:6