Библиотека сайта rus-linux.net
Что каждый программист должен знать о памяти.
Часть 9: Приложения и библиография
Оригинал: "Memory part 9: Appendices and bibliography"Автор: Ulrich Drepper
Дата публикации: November 14, 2007
Перевод: Н.Ромоданов
Дата перевода: апрель 2012 г.
Назад | Оглавление | Вперед |
9 Примеры и программы-бенчмарки
9.1 Умножение матриц
Это полный текст программы-бенчмарка, используемой для умножения матриц в разделе 6.2.1. За более подробной информацией об используемых в программе особенностях отсылаем читателя к справочному руководству Intel.
#include <stdlib.h> #include <stdio.h> #include <emmintrin.h> #define N 1000 double res[N][N] __attribute__ ((aligned (64))); double mul1[N][N] __attribute__ ((aligned (64))); double mul2[N][N] __attribute__ ((aligned (64))); #define SM (CLS / sizeof (double)) int main (void) { // ... Инициализация mul1 и mul2 int i, i2, j, j2, k, k2; double *restrict rres; double *restrict rmul1; double *restrict rmul2; for (i = 0; i < N; i += SM) for (j = 0; j < N; j += SM) for (k = 0; k < N; k += SM) for (i2 = 0, rres = &res[i][j], rmul1 = &mul1[i][k]; i2 < SM; ++i2, rres += N, rmul1 += N) { _mm_prefetch (&rmul1[8], _MM_HINT_NTA); for (k2 = 0, rmul2 = &mul2[k][j]; k2 < SM; ++k2, rmul2 += N) { __m128d m1d = _mm_load_sd (&rmul1[k2]); m1d = _mm_unpacklo_pd (m1d, m1d); for (j2 = 0; j2 < SM; j2 += 2) { __m128d m2 = _mm_load_pd (&rmul2[j2]); __m128d r2 = _mm_load_pd (&rres[j2]); _mm_store_pd (&rres[j2], _mm_add_pd (_mm_mul_pd (m2, m1d), r2)); } } } // ... использование результирующей матрицы return 0; }
Структура циклов в основном точно такая, как в последней реализации, приведенной в
разделе 6.2.1. Одно большое отличие в том, что операция загрузки значения rmul1[k2]
была извлечения из внутреннего цикла, поскольку мы должны создать вектор, где у обоих элементов значения одинаковы. Это делается с помощью внутренней операции _mm_unpacklo_pd()
.
Единственное, что еще нужно отметить, это то, что мы явно выровняли три массива для того, чтобы, как мы ожидаем, значения, находящиеся в этих массивах действительно находились в одной и той же кэш-строке.
Назад | Оглавление | Вперед |