Nvidia tesla k20: самые мощные серверные видеокарты на одном GPU

Содержание

самые мощные серверные видеокарты на одном GPU

Вслед за анонсом «двухголового» серверного графического «монстра» FirePro S10000 от AMD на международной конференции SC12 состоялась ещё одна громкая премьера. На этот раз повод трубить в фанфары был у компании NVIDIA, которая представила, как утверждается, самые быстрые и самые энергоэффективные одночиповые видеокарты серверного класса из когда-либо произведённых, а именно модели Tesla K20X и Tesla K20 на базе созданного по 28-нм технологии чипа GK110 с архитектурой Kepler.

NVIDIA Tesla K20X

NVIDIA Tesla K20X

Обе новинки предлагаются в двухслотовом исполнении с пассивным охлаждением на печатных платах под шину PCI Express 3.0 x16.

Флагман Tesla K20X с 2688 ядрами CUDA, как заявлено, обеспечивает самый высокий из возможных ныне уровень производительности для одного GPU, а именно 3,95 терафлопс в вычислениях с одинарной точностью и 1,31 терафлопс в вычислениях с двойной точностью. На его борту присутствует 6144 Мбайт памяти GDDR5 с 384-битным интерфейсом. Частота ядра/памяти равна 732/5200 МГц. Максимальная потребляемая мощность достигает 235 Вт.

В свою очередь Tesla K20 c 2496 ядрами CUDA характеризуется производительностью 3,52 терафлопс в вычислениях одинарной точности и 1,17 терафлопс в вычислениях с двойной точностью. Видеокарта получила 5120 Мбайт памяти GDDR5 с 320-битным интерфейсом, функционирует на частотах 706/5200 МГц (ядро/память) и во время работы потребляет не более 225 Вт энергии.

По словам разработчиков, 18688 ускорителей Tesla K20X легли в основу суперкомпьютера Titan, который, согласно новой редакции рейтинга TOP500, является на сегодняшний день самым мощным в мире. Данный суперкомпьютер расположен в Национальной Лаборатории Окриджа, штат Теннесси. Он стал новым лидером мирового рейтинга суперкомпьютеров с результатом в 17,59 петафлопс в бенчмарке LINPACK, сместив на этой позиции систему Sequoia из Ливерморской Национальной Лаборатории им. Лоуренса.

Попутно отмечается, что графический адаптер Tesla K20X отличается втрое меньшим энергопотреблением в сравнении с предыдущим поколением ускорителей NVIDIA и ещё больше увеличивает разрыв в производительности между GPU и CPU. Таким образом, суперкомпьютер Titan обеспечивает 2142,77 мегафлопс на Ватт и тем самым превосходит по энергоэффективности лидера последней версии списка самых экономичных суперкомпьютеров Green500.

Создатели акцентируют внимание и на том, что модель Tesla K20X в сочетании с CPU поколения Sandy Bridge от Intel способна ускорять многие приложения более чем в 10 раз. Например, MATLAB (инженерия) – в 18,1 раза, Chroma (физика) – в 17,9 раз, SPECFEM3D (землеведение) – в 10,5 раз, AMBER (молекулярная динамика) – в 8,2 раза.

Напоследок сообщим, что описанные выше видеокарты уже поставляются и доступны в составе решений от ведущих производителей серверов, включая Appro, ASUS, Cray, Eurotech, Fujitsu, HP, IBM, Quanta Computer, SGI, Supermicro, T-Platforms и Tyan, а также у партнёров-реселлеров NVIDIA.

Материалы по теме:

Источник:

Tesla K20 CARD — PNY Technologies

Fastest , Most Efficient HPC Architecture Ever Built.

NVIDIA® Tesla® GPU Accelerators turn standard PCs and workstations into personal supercomputers. Powered by NVIDIA CUDA® — the world’s most pervasive parallel-computing model Tesla GPU Accelerators for workstations deliver cluster level performance right at your desk. Kepler based Tesla GPU Accelerators are also available for servers.

PNY provides unsurpassed service and commitment to its professional graphics customers offering: 3 year warranty, pre- and post-sales support, dedicated Quadro Field Application engineers and direct tech support hot lines.

  • Спецификация
































    Tesla K20 Card by PNY — Product Specifications
       
    Memory Size 5 GB GDDR5
    Memory Interface 320-bit
    Memory Bandwidth (ECC off)) 208 GB/s
    CUDA Cores 2496
    System Interface PCI Express 2.0 x16
    Processor core clock 706 MHz
    Memory clock 2.6 GHz
    Cache L1 and L2
    Maximum Consumption 225 W
    Number of GPUs 1 × GK110
    Energy Star Enabling Yes
    Conformité Européenne (CE) Yes
    Thermal Solution Ultra-quiet Active Fansink
    Form Factor 110 mm (H) × 265 mm (L)
    Dual Slot, Full-Height
    Connectors 2 × 6-pin PCI Express power connectors
    SMX Yes
    Dynamic Parallelism Yes
    Hyper-Q Yes
    GPU Computing Applications Reservoir simulation
    CAE (structural analysis)

    Molecular dynamics, Numerical analytics

    Computational visualization (ray tracing)
    Peak double precision floating point performance 1.17 teraflops
    Peak single precision floating point performance 3.52 teraflops
    System Servers and Workstations
    Compatible with Windows Vista, Windows 7 — 64-bit

    Linux 32-bit and 64-bit

    Fedora 12

    RHEL 5.4 Desktop

    Ubuntu 9.10 Desktop

    RHEL 4.8 Desktop (64-bit only)

    RHEL 6

    OpenSUSE 11.2

    SLED 11
    Available extender brackets

    Long Extender with Offset

    Short Extender with Offset

    Flat Extender (short)

       
       
    Tesla K20 Card by PNY — SKUs & EANs
       
    Retail Unit TCSK20CARD-PB EAN 3536403341695

  • Источники
  • Сертификаты
  • NVIDIA представила Tesla K20 и K20X на основе GK110

    На конференции SC12 Supercomputing в Солт-Лейк-Сити NVIDIA представила вычислительные карты для серверов и рабочих станций Tesla K20 и K20X на основе GPU GK110. Две версии, о которых мы поговорим ниже чуть подробнее, и объясняют путаницу, которая существовала в последние недели вокруг Tesla K20. Изначально поставщик стоечных серверов на GPU сообщил, что карты NVIDIA Tesla K20 будут использовать GK110 с 13 кластерами SMX, каждый со 192 ядрами CUDA, что дает 2496 ядер CUDA в общей сложности. Вскоре на открытии суперкомпьютера Titanium было указано на 2688 ядер CUDA, что указывает на 14 кластеров SMX. И существование двух версий карт объясняет подобный дуализм.

    Tesla K20 на основе GK110

    Tesla K20X — новая high-end модель для вычислений на GPU, ускоритель ориентирован исключительно на серверы. Чуть менее мощная карта Tesla K20 нацелена и на серверы, и на рабочие станции.



















    GF110
    Tesla M2090
    GK104
    Tesla K10
    GK110
    Tesla K20
    GK110
    Tesla K20X
    Техпроцесс 40 нм 28 нм 28 нм 28 нм
    Число транзисторов 3 млрд. 2x 3,54 млрд. 7,1 млрд. 7,1 млрд.
    Техпроцесс 530 мм² 294 мм² предполож. 600 мм² предполож. 600 мм²
    TDP 225 Вт 225 Вт 225 Вт 235 Вт
    Тактовая частота GPU 1300 МГц 2x 745 МГц — МГц — МГц
    Тактовая частота памяти 463 МГц 625 МГц — МГц — МГц
    Тип памяти GDDR5-ECC GDDR5-ECC GDDR5-ECC GDDR5-ECC
    Объём памяти 6144 Мбайт 8192 Мбайт 5120 Мбайт 6144 Мбайт
    Ширина шины памяти 384 бит 256 бит 320 бит 384 бит
    Пропускная способность памяти 177 Гбайт/с 2x 160 Гбайт/с 208 Гбайт/с 250 Гбайт/с
    Потоковые процессоры 512 (1D) 2x 1536 (1D) 2496 (1D) 2688 (1D)
    Кэш L1 64 кбайт 64 кбайт 64 кбайт 64 кбайт
    Кэш L2 768 кбайт 512 кбайт 1,5 Мбайт 1,5 Мбайт
    ECC Память и кэши Только память Память и кэши Память и кэши
    FP64 1/2 FP32 1/24 FP32 1/3 FP32 1/3 FP32
    Одиночная точность 1,33 TFlops 4,58 TFlops 3,52 TFlops 3,95 TFlops
    Двойная точность 0,66 TFlops 0,19 TFlops 1,17 TFlops 1,31 TFlops

    Огромный прирост производительности в вычислениях с двойной точностью и скромный прирост производительности с одинарной точностью можно объяснить смещением акцента с FP32 на FP64. Графический процессор GK110 стал первым чипом NVIDIA, ориентированным полностью на профессиональный рынок и сферы HPC (High Performance Computing). Карта Tesla K10 базируется на двух GPU GK104, которые относятся к первому поколению «Kepler» и ориентированы, в том числе, и на GPU GeForce, а в рендеринге производительность с одинарной точность играет решающую роль. Рейтинг производительности с одинарной точностью по отношению к двойной точности был снижен с 1/2 до 1/24. Наконец, у GK104 технологией ECC защищается только оперативная память, но не кэши.

    Диаграмма GK110

    У GK110 был пересмотрен рейтинг между вычислениями с плавающей запятой с одинарной и двойной точностью, было увеличено количество ядер CUDA, увеличен до 1,5 Мбайт кэш L2, шина памяти расширена до 384 битов, защита от случайных ошибок обеспечивается технологией ECC. Почему же NVIDIA не выбрала 512-битный интерфейс памяти? Дело в том, что 7,1 млрд. транзисторов занимают на кристалле GK110 площадь около 600 мм² (GK104: 294 мм²), что позволяет назвать новый чип уже самым крупным в мире (по количеству транзисторов), по 28-нм технологии его непросто производить, да и очень дорого. 512-битная шина памяти потребовала бы ещё большей площади чипа аппаратно, так что NVIDIA пошла на компромисс.

    Для получения более высокой производительности с двойной точностью, NVIDIA установила 64 ядра Floating Point на кластер SMX, у GK104 использовалось только восемь подобных ядер на кластер. Вместе с увеличением количества кластеров данный шаг привел к значительному приросту по производительности с двойной точностью. NVIDIA также опирается на свою скалярную архитектур «Superscalar Dispatch Method», которая появилась в GF104 и гарантирует более защищённые от ошибок вычисления. Эта архитектура опирается на параллелизм на уровне потоков Thread Level Parallelism (TLP) и параллелизм на уровне инструкций Instruction Level Parallelism (ILP).

    Диаграмма кластера GK110 SMX

    Каждый кластер SMX оснащен 64 кбайт кэша L1 и 48 кбайт кэша данных только для чтения. По сравнению с GK104, NVIDIA не стала затрагивать кэш L1, разве что в кластерах GK110 появился 48-кбайт кэш данных только для чтения. На кластер SMX по-прежнему используются 16 текстурных блоков, так что у GK110 мы получаем их, максимум, 240.

    Производительность вычислений с двойной точностью была увеличения некоторыми изменениями в регистрах. Число регистров на кластеры SMX осталось прежним 65 536 по сравнению с GK104, но на поток GK110 обеспечивает доступ к 255 регистрам — в отличие от только 63 у GK104.

    Как мы уже упоминали, интерфейс памяти стал шире, теперь он состоит из шести 64-битных блоков, которые вместе обеспечивают 384-битный интерфейс. В отличие от GK104, технология ECC защищает не только видеопамять, но и кэши L1 и L2. Поскольку определение ошибок подразумевает выполнение некоторых дополнительных вычислений, NVIDIA снизила вычислительные потери благодаря внутренней оптимизации до 66 процентов.

    Hyper-Q и динамический параллелизм остались и в GK110.

    Hyper-Q:

    В случае архитектуры «Fermi» GPU могли работать только с одной рабочей очередью команд и данных, но в случае «Kepler» ситуация уже отличается.

    Hyper-Q в сравнении

    Одновременно с GPU «Kepler» могут работать до 32 физических ядер CPU. Конечно, данное ограничение не присутствует на программном уровне в интерфейсах DirectX 11, и несколько потоков могут выполняться одновременно, но передача данных и команд на GPU всё равно выполнялась последовательно. Благодаря поддержке Hyper-Q в будущем можно будет передавать данные параллельно.

    Последовательное выполнение команд без Hyper-Q

    Без поддержки Hyper-Q данные и команды передаются последовательно, загрузка GPU в данном случае не является оптимальной.

    Выполнение команд с Hyper-Q

    С помощью Hyper-Q данные и команды 32 физических ядер передаются одновременно. Это приводит не только к лучшему использованию GPU, но и к тому, что выполненные вычисления могут обрабатываться быстрее.

    Кроме того, теперь множество GPU в системе могут напрямую связываться друг с другом. Технология «GPU Direct» как раз позволяет GPU «Kepler» связываться друг с другом даже по сети — обращение к CPU и памяти теперь уже не требуется.

    Dynamic Parallelism:

    Команды и данные, которые поставляются на GPU, могут быть взаимозависимыми (например, если расчеты зависят от результатов других вычислений), таким образом, части разных потоков могут блокироваться от выполнения на GPU некоторый промежуток времени. NVIDIA постаралась внести и улучшения обработки подобных ситуаций в интерфейс CUDA.

    Dynamic Parallelism

    Технология Dynamic Parallelism на GPU может решать подобные проблемы зависимости. Впрочем, от программистов тоже требуются усилия, поскольку им следует учитывать неравномерности обработки GPU и запросы из памяти. Если созданные потоки превысят возможности доступной памяти GPU, то будет проводиться обращение через шину памяти PCI Express, что может вновь замедлить весь процесс.

    Dynamic Parallelism

    GPU самостоятельно определяет, в каких пропорциях он будет допускать существование зависимостей. Всё это позволит Nvidia избежать сценариев, ограничивающих производительность.

    Эффективность энергопотребления:

    В случае NVIDIA Tesla K20 и K20X мы получаем отличные результаты по эффективности энергопотребления. Если вы взглянете на список Green500, в котором компьютеры приведены по рейтингу эффективности энергопотребления, то на одном из первых мест находится BlueGene/Q с 16 ядрами на 1,6 ГГц и вычислительной производительностью около 2100 мегафлопов на ватт. В случае системы NVIDIA Tesla K20X мы получаем около 2250 мегафлопов на ватт. А цена такого решения ещё и в четыре раза ниже.

    Использование в суперкомпьютере Titan:

    Вычислительные ускорители Tesla K20X используются в суперкомпьютере Titan в Окриджской национальной лаборатории (штат Теннеси, США). Установленная система достигает пиковой производительности 27 петафлопов. Суперкомпьютер состоит из 18 688 GPU NVIDIA Tesla K20X и такого же количества 16-ядерных процессоров AMD (Opteron 6274). Как можно догадаться, Titan состоит из 18 688 узлов, которые объединены в 200 ячеек. На каждый узел доступно 32 Гбайт памяти, что даёт общую ёмкость оперативной памяти 710 терабайт.

    Конкуренты:

    Вчера утром AMD объявила новые вычислительные ускорители FirePro S10000 на основе двух GPU Tahiti Pro. Мы опубликовали новость и сравнение теоретической производительности, но в тот момент карты K20X и K20 ещё не были официально объявлены.




    Модель AMD
    FirePro S10000
    NVIDIA
    Tesla K20X
    NVIDIA
    Tesla K20
    NVIDIA
    Tesla K10
    NVIDIA
    Tesla M2090
    Одиночная точность 5,91 TFlops 3,95 TFlops 3,52 TFlops 4,58 TFLops 1,33 TFlops
    Двойная точность 1,48 TFlops 1,31 TFlops 1,17 TFlops 0,19 TFlops 0,67 TFlops

    По чистой теоретической производительности вычислительный ускоритель AMD FirePro S10000 обгоняет конкурентов NVIDIA, будь то GK104 или GK110. Но следует учитывать, что AMD для FirePro S10000 указывает максимальное энергопотребление 335 Вт, в то время как NVIDIA K20X отличается энергопотреблением всего 235 Вт. Кроме того, NVIDIA нацелила GK104 и GK110 на другие сферы применения, что можно видеть по соотношениям производительности с одинарной и двойной точностью.

    Модуль вычислительный nVidia Tesla K40

    Внимание! Для полноценной работы сайта необходимо включить в браузере поддержку JavaScript.
    Как это сделать?

    Москва

    Связаться с нами

    Режим работы
    9:00 — 21:00

    • Код
      товара: 363238
    • Артикул: AOC-GPU-NVK40M

    В избранное

    Сравнить

    Коротко о товаре: Модуль вычислительный 12GB GDDR5 PCI-E x16 288GB/s 1.43 Tflops/4.29 Tflops пассивное охл. (AOC-GPU-NVK40M)

    Все характеристики


    В избранное

    Сравнить

    Модуль вычислительный nVidia
    Tesla K40

    • Описание
    • Характеристики
    • Отзывы
    • Основные характеристики

      • Линейка

        Tesla

      • Интерфейс

        PCI-E x16

      • Тип

        nVidia Tesla K40

      • Частота ядра

        745 МГц

      • Частота ядра в режиме Boost

        875 МГц

      • Объем

        12288 МБ

      • Эффективная частота

        6000 МГц

      • Тип

        GDDR5

      • Разрядность шины памяти

        384 бит

      • Поддержка ECC

        Есть

      • Максимальное энергопотребление на номинальной частоте

        235 Вт

      • Разъем дополнительного питания

        6 pin + 8 pin

      • Низкий профиль (Low Profile)

        Нет

      • Количество занимаемых слотов

        2

      • Ссылка на описание на сайте производителя

      • Ссылки на публикации

      Все характеристики

    • Характеристики nVidia Tesla K40

      • Линейка

        Tesla

      • Интерфейс

      • Интерфейс

        PCI-E x16

      • Версия интерфейса

        3.0

      • Процессор

      • Тип

        nVidia Tesla K40

      • Кодовое имя

        GK110B

      • Частота ядра

        745 МГц

      • Количество шейдерных (универсальных) процессоров

        2880 шт

      • Частота ядра в режиме Boost

        875 МГц

      • Техпроцесс

        28 нм

      • Количество транзисторов

        7100 млн

      • Вычислительная совместимость

        2 шт

      • Характеристики встроенной памяти

      • Объем

        12288 МБ

      • Эффективная частота

        6000 МГц

      • Пропускная способность

        288 ГБ/с

      • Тип

        GDDR5

      • Разрядность шины памяти

        384 бит

      • Поддержка ECC

        Есть

      • Теоретическая производительность, терафлопс

      • Одинарная точность, MAD (MUL+ADD)

        4,29

      • Двойная точность, FMA

        1,43

      • Поддержка вычислений общего назначения

      • nVIDIA PhysX

        Есть

      • CUDA

        Есть

      • CUDA C++

        Есть

      • OpenCL

        1.2

      • OpenGL

        4.3

      • DirectX

        11.2

      • Питание

      • Максимальное энергопотребление на номинальной частоте

        235 Вт

      • Разъем дополнительного питания

        6 pin + 8 pin

      • Дополнительные характеристики

      • Низкий профиль (Low Profile)

        Нет

      • Количество занимаемых слотов

        2

      • Поддерживаемые ОС

        Windows 7 32bit, Windows 7 64bit, Windows 8/8.1 32bit, Windows 8/8.1 64bit

      • Тип комплектации

        Retail

      • Ссылки

      • Ссылка на описание на сайте производителя

      • Ссылки на публикации

    • Отзывы

      Пока никто не оставил отзыв, но вы можете стать первым!

      Оставить отзыв

    • Описание
    • Характеристики
    • Отзывы

    nVidia Tesla K40 сертифицирован для продажи в России.

    Модуль вычислительный nVidia Tesla K40 – фото, технические характеристики, условия доставки по Москве и России. Для того, чтобы купить модуль вычислительный nVidia Tesla K40 в интернет-магазине Xcom-shop.ru, достаточно заполнить форму онлайн заказа или позвонить по телефонам: +7 (495) 799-96-69, +7 (800) 200-00-69.

    Изображения товара, включая цвет, могут отличаться от реального внешнего вида. Комплектация также может быть
    изменена производителем без предварительного уведомления. Данное описание и количество товара не является
    публичной офертой.

    Вычислительные системы NVIDIA Tesla

    Графические процессоры NVIDIA® Tesla™ — основа построения рабочих станций Team Workstation, выполняющих роль суперкомпьютеров. Их использование позволяет существенно увеличить производительность решения вычислительных задач в различных областях, включая обработку видео и изображений, биологию и химию, моделирование динамики жидкостей, сейсмических исследованиях и многих других. С подробным перечнем приложений, ориентированных на использование TESLA можно ознакомиться на сайте NVIDIA.

    Вычисления с GPU-ускорением обладают беспрецедентной производительностью благодаря тому, что части приложения, требующие большой вычислительной мощности, обрабатываются специализированным графическим процессором. При этом остальная часть приложения выполняется на CPU.

    В отличие от CPU, состоящего из нескольких ядер, оптимизированных для последовательной обработки данных. GPU состоит из тысяч более мелких и энергоэффективных ядер, созданных для обработки нескольких задач одновременно.

    Вычислительная система на NVIDIA TESLA является ведущей платформой для ускорения научных вычислений и анализа больших данных. Она объединяет в себе самые быстрые графические ускорители, широко распространенную модель параллельных вычислений CUDA от NVIDIA и обширную экосистему разработчиков программного обеспечения.

    Технология NVIDIA мульти-GPU позволяет успешно масштабировать производительность за счет использования в одной системе комбинации из нескольких графических карт NVIDIA TESLA или NVIDIA QUADRO.

    Несколько цифр для иллюстрации. Графический ускоритель Tesla K80 обеспечивает производительность в операциях двойной точности дот 2,91 терафлопс, а производительность в операциях с одинарной точностью до 8,74 терафлопс.

    Высокая производительность обработки крупных наборов данных достигается благодаря большому объему встроенной памяти (24 ГБ памяти на Tesla K80 GPU). Увеличенная скорость передачи данных для обеспечения их доступности обеспечивается высокой пропускной способностью используемой памяти (480 Гбит/с для Tesla K80 GPU).

    Ниже приведена гистограмма сравнения производительности процессоров GPU и CPU.

    Графический ускоритель NVIDIA TESLA K20 оснащен одним процессором Kepler GK110, 12 ГБ памяти и обеспечивает пиковую производительность вычислений с двойной точностью в 1,17 терафлопс.

    Графический ускоритель NVIDIA TESLA K40 оснащен одним процессором Kepler GK110B, 12 ГБ памяти и обеспечивает пиковую производительность вычислений с двойной точностью в 1,43 терафлопс.

    Графический ускоритель NVIDIA TESLA K80 — новинка с двумя GPU Kepler GK210 и 24 ГБ памяти с пропускной способностью 480 Гбит/с . Благодаря технологии NVIDIA GPU Boost™ пиковая производительность вычислений двойной точности с плавающей запятой достигает 2,7 терафлопс.

    Есть ли какая-то выгода в картах nVidia Tesla?

    Я планирую купить серьезный GPU для запуска параллельного алгоритма (бюджет 2k-4k). Теперь я повсюду вижу суперкомпьютеры с nVidia Tesla GPU картами «made especially for GPGPU».

    Хотя на первый взгляд это кажется очень приятным, лучшее чтение заставляет меня серьезно задуматься об этом: по сравнению, например, с Radeon HD 7970 его производительность (с точки зрения флопов) значительно ниже, его себестоимость значительно выше, и я, кажется, не могу найти никакого эталонного сравнения между Tesla и normal gaming GPUs.

    Я обнаружил, что Тесла имеет ECC-память. Разве это единственная разница? Или я упускаю более глубокую архитектурную разницу между ними? Возможно, релевантная информация: я буду использовать OpenCL, а не Cuda.

    opencl

    tesla

    Поделиться

    Источник


    user1111929    

    01 февраля 2012 в 20:38

    2 ответа




    4

    Есть два технических различия, о которых я знаю между брендами, когда вы сравниваете похожие карты.

    1) Карты Nvidia, как правило, имеют лучшую двойную точность FLOPS, чем AMD — иногда в 2 раза. AMD обычно лучше подходит для одной точности FLOPS.

    2) память ECC доступна для обоих брендов для памяти GDDR5. Разница в том, что Nvidia также использует ECC во внутренней памяти (регистры и т. Д.), А AMD-нет.

    На мой взгляд, выбирайте карту на основе вашего заявления. Если вы используете больше одинарной, чем двойной точности, перейдите на AMD, в противном случае Nvidia. Если вам нужен ECC для высокой отказоустойчивости, возможно, Nvidia-ваш лучший выбор. Иногда многие более дешевые карты работают лучше, чем 1 или 2 верхние линейные карты — подумайте о пропускной способности PCI-e. Ознакомьтесь с контрольными показателями и попытайтесь определить, какая карта лучше всего подходит для ваших нужд.

    Поделиться


    mfa    

    01 февраля 2012 в 21:04


    Поделиться


    Gus    

    01 февраля 2012 в 20:41


    Похожие вопросы:

    CUDA программа работает медленнее на Tesla K20, чем GTX 965

    Я делаю проект, в котором мне нужно сравнить различные карты gpu для анализа производительности. Я запустил один и тот же код cuda для обнаружения Канни-краев в обоих GPU-х и обнаружил, что gtx 965…

    Как использовать NVIDIA K80?

    Машина имеет 4 настроенных NVIDIA K80s, а выходы nvidia-smi — это информация о 4 картах. Их GPU IDs — это 0,1,2,3 . Каждый K80 имеет два типа памяти GPU: FB и BAR1 , оба имеют по 12 Гб. Но программы…

    Что такое NVIDIA Tesla и CUDA?

    Я провожу некоторые исследования по GPGPU и в настоящее время борюсь с вопросом, Что такое Тесла и CUDA на самом деле. В статье NVIDIA Tesla: A unified Graphics and Computing Architecture говорится,…

    общее количество потоков на nvidia Tesla

    Каково общее количество потоков, которые могут работать одновременно на nvidia Tesla, скажем, S1070.

    в чем разница между графическими картами NVIDIA Quadro 6000 и Tesla C2075?

    Я изучаю GPU computing и не могу понять, каковы технические и эксплуатационные различия между видеокартой NVIDIA Quadro 6000 и видеокартой NVIDIA Tesla C2075. Они оба имеют 6 ГБ RAM и одинаковое…

    Фрагментные шейдеры на ATI картах против NVIDIA

    Я использую этот фрагмент shader (вдохновленный каким-то учебником, найденным на сайте NVIDIA некоторое время назад). Он в основном вычисляет билинейную интерполяцию текстуры 2D. uniform sampler2D…

    CUDA на адаптере Tesla и полноэкранное окно DX на другом адаптере NVIDIA

    У меня есть приложение, которое выполняет некоторую обработку с помощью CUDA на адаптере Tesla X2050. В моей системе также есть Qudaro4000, который для этой цели не используется приложением. Кроме…

    Установите CUDA-7.5 на компьютер с помощью GTX950 и Tesla K40

    Я пытаюсь установить CUDA-7.5 на Ubuntu 14.04, и у меня есть как GTX950, так и Tesla K40, вставленные в мою материнскую плату. а команда lspci | grep-i nvidia дает следующий результат: 01:00.0 3D…

    Использование двух устройств в Tesla K80 на экземплярах AWS p2

    Я использую экземпляр p2 на AWS, который должен иметь Tesla K80 gpu, с двумя GK210 GPUs внутри него ( https:/ / blogs.nvidia.com / blog/2014/11/18/tesla-k80-perf/ ). Согласно следующему сообщению с…

    Дисплей через графическую карту Tesla

    Я хочу отобразить обработанное видео на мониторе. Для обработки видео в CUDA я думаю получить карту класса Nvidia Tesla, но у нее нет никакого порта видеовыхода. Есть ли способ создать буфер кадров…

    Спецификации Nvidia Tesla K20 и её фото

    Сайт Heise.de поделился информацией по поводу вычислительного решения от Nvidia на основе графического ядра GK110 (что по одним данным будет лежать в основе GeForce GTX 780, а по другим не будет).

     

     

    В основе Tesla K20 лежит ядро GK110, но не совсем такое как будет в GTX 780, например количество потоковых мультипроцессоров (SMX) равно 13, а не 15 (как ранее сообщалось о GK110), а количество CUDA ядер составляет 2496 штук вместо 2880.

     

    Рабочая частота ядра также не поражает воображение — 705МГц, а вот производительность решения довольно-таки впечатляющая — 3.52 ТФЛОПС в режиме одинарной точности и 1.17 ТФЛОПС с двойной точностью. Объём памяти GDDR5 на Tesla K20 никто не назовёт маленьким — 5ГБ, пропускная способность памяти — 200ГБ/с.

     

    Изделие поддерживает такие «фичи» как Hyper-Q, GPUDirect с RDMA и динамический параллелизм, TDP решения имеет немалое значение — 225 ватт, питаться карта будет через связку 8+6-и пиновых коннекторов. Количество транзисторов велико — 7.1 миллиарда штук, изготовлено ядро Tesla K20 по нормам 28нм тех.процесса.

     

     

    Tesla K20 и её графический чип

     

    Будет существовать активно охлаждаемая версия Tesla K20 и охлаждаемая пассивно, последний вариант можно увидеть на одном из фото выше. Пока нет данных о дате появления продуктов на GK110, так что остаётся лишь ждать, когда Nvidia в очередной раз представит свои новинки.

     

     



    Понравился материал «У SM»?

    Поделись им с другими:

           

     

    < Подробности о новых видеокартах GeForce на базе графического ядра Kepler (GTX 780, GTX 770 и других)   Некоторые сведения о блоке питания ST60F-PS от SilverStone >

    КАРТА

    Tesla K20 — PNY Technologies

    Самая быстрая и эффективная архитектура HPC из когда-либо созданных .

    Ускорители NVIDIA® Tesla® GPU превращают стандартные ПК и рабочие станции в персональные суперкомпьютеры. На базе NVIDIA CUDA® — самой распространенной в мире модели параллельных вычислений. Ускорители Tesla GPU для рабочих станций обеспечивают производительность на уровне кластера прямо на вашем столе. Для серверов также доступны ускорители Tesla GPU на базе Kepler.

    PNY обеспечивает непревзойденное обслуживание и приверженность своим клиентам профессиональной графики, предлагая: 3-летнюю гарантию, предпродажную и послепродажную поддержку, выделенных инженеров Quadro для полевых приложений и прямые горячие линии технической поддержки.

  • Технические характеристики
    Карта Tesla K20 от PNY — Технические характеристики
    Объем памяти 5 ГБ GDDR5
    Интерфейс памяти 320-бит
    Пропускная способность памяти (ECC выкл.)) 208 ГБ / с
    Ядра CUDA 2496
    Системный интерфейс PCI Express 2.0 х16
    Тактовая частота ядра процессора 706 МГц
    Частота памяти 2,6 ГГц
    Кэш L1 и L2
    Максимальное потребление 225 Вт
    Количество графических процессоров 1 × GK110
    Energy Star Включение Есть
    Соответствует европейскому стандарту (CE) Есть
    Тепловой раствор Сверхтихий активный вентилятор
    Форм-фактор 110 мм (В) × 265 мм (Д)
    Двойной прорезь, полная высота
    Разъемы 2 × 6-контактных разъема питания PCI Express
    SMX Есть
    Динамический параллелизм Есть
    Hyper-Q Есть
    Вычислительные приложения на GPU Моделирование коллектора
    CAE (структурный анализ)
    Молекулярная динамика, Численная аналитика
    Вычислительная визуализация (трассировка лучей)
    Пиковая производительность с плавающей запятой двойной точности 1.17 терафлопс
    Пиковая производительность с плавающей запятой одинарной точности 3,52 терафлопс
    Система Серверы и рабочие станции
    Совместим с Windows Vista, Windows 7 — 64-разрядная версия
    Linux 32-разрядная и 64-разрядная версии
    Fedora 12
    RHEL 5.4 Desktop
    Ubuntu 9.10 для настольных ПК
    RHEL 4.8 Настольный компьютер (только 64-разрядная версия)
    RHEL 6
    OpenSUSE 11.2
    SLED 11
    Доступные удлинители

    Удлинитель удлиненный со смещением

    Короткий удлинитель со смещением
    Плоский удлинитель (короткий)

    Карта Tesla K20 от PNY — SKU и EAN
    Розничная торговля Установка TCSK20CARD-PB EAN 3536403341695
  • ресурсов
  • Сертификаты

  • фактов, цифр и некоторых выводов — Eleks Labs

    Благодаря партнерству с NVIDIA мы получили доступ к K20 пару месяцев назад и провели множество тестов производительности.Сегодня мы собираемся рассказать вам больше о его производительности по сравнению с несколькими другими ускорителями NVIDIA, которые есть у нас в ELEKS.

    Тестовая среда

    Мы реализовали набор синтетических микротестов, которые измеряют производительность следующих основных операций GPGPU:

    • Задержка операций ядра / ядра устройства
    • Время уменьшения (SUM)
    • Зависимые / независимые FLOPs
    • Управление памятью
    • Скорость передачи памяти
    • Скорость доступа к памяти устройства
    • Скорость доступа к закрепленной памяти

    Более подробная информация и результаты тестов приведены ниже.Наш набор тестов доступен на GitHub, так что вы можете запускать их на своем оборудовании, если хотите. Мы провели эти тесты в семи различных тестовых конфигурациях:

    • GeForce GTX 580 (PCIe-2, ОС Windows, физическая коробка)
    • GeForce GTX 680 (PCIe-2, ОС Windows, физическая коробка)
    • GeForce GTX 680 (PCIe-3, ОС Windows, физическая коробка)
    • Tesla K20Xm (PCIe-3, ECC ON, ОС Linux, сервер NVIDIA EAP)
    • Tesla K20Xm (PCIe-3, ECC OFF, ОС Linux, сервер NVIDIA EAP)
    • Tesla M2050 (PCIe-2, ECC ON, ОС Linux, Amazon EC2)
    • Tesla M2050 (PCIe-2, ECC ON, ОС Linux, PEER1 HPC Cloud)

    Одна из целей заключалась в том, чтобы определить разницу между K20 и более старыми конфигурациями оборудования с точки зрения общей производительности системы.Другая цель: понять разницу между виртуализированными и невиртуализированными средами. Вот что у нас получилось:

    Задержка операций ядра / устройства

    Одной из новых функций K20 является динамический параллелизм, который позволяет выполнять ядра друг от друга. Мы провели тест, который измерил задержку расписания и выполнения ядра с DP и без него. Результаты без DP выглядят так:

    Удивительно, но новая Tesla медленнее старой и GTX 680, вероятно, из-за драйвера, который был в бета-версии на тот момент, когда мы измеряли производительность.Также очевидно, что из-за виртуализации экземпляры AWS GPU работают намного медленнее, чем более близкие к оборудованию PEER1.
    Затем мы попытались запустить аналогичный тест с DP на:

    Очевидно, мы не смогли запустить эти тесты на старом оборудовании, потому что оно не поддерживает DP. Удивительно, но планирование DP выполняется медленнее, чем традиционное, но время выполнения DP практически такое же при включенном ECC, а традиционное — быстрее при выключенном ECC. Мы ожидали, что задержка DP будет меньше традиционной.Сложно сказать, в чем причина такой медлительности. Мы предполагаем, что это мог быть драйвер, но это только наше предположение.

    Время редукции (SUM)

    Следующее, что мы попытались измерить, — это уменьшить время выполнения. В основном мы рассчитывали сумму массива. Мы сделали это с разными массивами и размерами сетки (блоки x потоки x размер массива):

    Вот и ожидаемые результаты. Новый Tesla K20 медленнее на небольших наборах данных, вероятно, из-за меньшей тактовой частоты и неполноценных драйверов.Это становится быстрее, когда мы работаем с большими массивами и используем как можно больше ядер.

    Что касается виртуализации, мы обнаружили, что виртуализированный M2050 сравним с невиртуализированным для небольших наборов данных, но намного медленнее для больших наборов данных.

    Зависимые / независимые ФЛОПы

    Пиковая теоретическая производительность — одно из наиболее неправильно понимаемых свойств вычислительного оборудования. Некоторые говорят, что это ничего не значит, некоторые говорят, что это важно. Истина всегда находится где-то посередине.Мы попытались измерить производительность в FLOP, используя несколько основных операций. Мы измерили два типа операций, зависимые и независимые, чтобы определить, выполняет ли GPU автоматическое распараллеливание независимых операций. Вот что мы получили:

    Удивительно, но у нас нет лучших результатов с независимыми операциями. Возможно, у нас есть какие-то проблемы с нашими тестами или мы неправильно понимаем, как работает автоматическое распараллеливание в графическом процессоре, но мы не смогли реализовать тест, в котором независимые операции автоматически распараллеливаются.

    Что касается общих результатов, то Teslas намного быстрее, чем GeForces, когда вы работаете с числами с плавающей запятой двойной точности, что вполне ожидаемо: потребительские ускорители оптимизированы для одинарной точности, потому что двойная точность не требуется в компьютерных играх, в основном программном обеспечении, для которого они были разработаны. FLOP также сильно зависят от тактовой частоты и количества ядер, поэтому новые карты с большим количеством ядер обычно быстрее, за исключением одного случая с GTX 580/680 и двойной точностью: 580 быстрее из-за более высокой тактовой частоты.
    Виртуализация вообще не влияет на производительность FLOP.

    Управление памятью

    Еще одна важная вещь для HPC — это базовая скорость управления памятью. Поскольку в CUDA доступно несколько моделей памяти, также важно понимать все последствия использования каждой из них. Мы написали тест, который выделяет и освобождает блоки памяти размером 16 байт, 10 Мбайт и 100 Мбайт в различных моделях. Обратите внимание: в этом тесте мы получили совсем другие результаты, поэтому имеет смысл отображать их на графиках с логарифмической шкалой.Вот они:

    Память устройства, очевидно, самый быстрый вариант, если вы выделяете большой кусок памяти. А GTX 680 с PCIe-3 — наш чемпион в области управления памятью устройств. Teslas медленнее GeForces во всех тестах. Виртуализация серьезно влияет на управление памятью Host Write Combined. PCIe-3 лучше, чем PCIe-2, что тоже очевидно.

    Скорость передачи памяти

    Еще одна важная характеристика ускорителя — скорость передачи данных от одной модели памяти к другой.Мы измерили это, скопировав блоки данных размером 100 МБ между памятью хоста и графического процессора в обоих направлениях, используя обычные модели доступа к памяти с блокировкой страниц и записи. Вот что мы получили:

    Очевидно, конфигурации PCIe-3 намного быстрее, чем PCIe2. Устройства Kepler (GTX 680 и K20) быстрее других. Если вы используете модели с блокировкой страницы и комбинированной записью, это увеличивает скорость передачи. Виртуализация незначительно влияет на обычную скорость передачи памяти и совсем не влияет на другие.Мы также протестировали скорость передачи внутренней памяти (обратите внимание, мы не умножали ее на 2, как это обычно делает NVIDIA в своих тестах):

    Tesla K20

    быстрее GeForce, но разница не такая уж и большая. M2050 почти в два раза медленнее своих последователей.

    Скорость доступа к памяти устройства

    Мы также измерили скорость доступа к памяти устройства для каждой имеющейся конфигурации. Вот они:

    Доступ к согласованной памяти намного быстрее, чем к невыровненной (разница почти в 10 раз).Новые ускорители лучше старых. Чтение / запись с двойной точностью выполняется быстрее, чем одинарная для всех конфигураций. Виртуализация никак не влияет на скорость доступа к памяти.

    Скорость доступа к закрепленной памяти

    Последней измеренной нами метрикой была закрепленная скорость доступа к памяти при взаимодействии устройства с памятью хоста. К сожалению, нам не удалось запустить эти тесты на GTX 680 с PCIe-3 из-за проблемы с распределением больших блоков памяти в Windows.

    Новая Tesla быстрее старой.PCIe-3 явно быстрее. Выровненный доступ почти в десять раз быстрее, и если вы читаете числа с плавающей запятой двойной точности, ваша скорость доступа к памяти в два раза выше, чем при работе с числами с плавающей запятой одинарной точности. Виртуализированная среда работает медленнее, чем невиртуализированная.

    Выводы

    В целом новый Tesla K20 работает немного быстрее своих предшественников. Революции нет. Идет эволюция — мы получили лучшую производительность, новые инструменты, которые облегчают жизнь программисту. Есть также несколько вещей, которые не упоминаются в этом тесте, например, лучшая поддержка виртуализации и, как следствие, готовность K20 к облачным вычислениям.Некоторые результаты были неожиданными. Мы ожидаем лучших результатов K20 через несколько месяцев, когда будет доступна новая оптимизированная версия драйверов (у NVIDIA всегда есть проблемы с новыми драйверами сразу после выпуска, но обычно они исправляются после нескольких обновлений).

    Таблицу с полными результатами можно найти в Документах Google. Исходные коды тестов доступны на нашем GitHub.

    NVIDIA Tesla K20 GPU Accelerator (Kepler GK110) Подробно

    NVIDIA Tesla K20 GPU в настоящее время является стандартом де-факто для высокопроизводительных гетерогенных вычислений.Эти графические процессоры, основанные на архитектуре Kepler GK110, вам нужны, если вы собираетесь использовать последние достижения, доступные в CUDA 5.0 и CUDA 5.5. Это поколение было разработано специально для новых захватывающих функций CUDA, таких как динамический параллелизм.

    Благодаря 5 или 6 ГБ памяти GDDR5 они обеспечивают производительность до 3,95 терафлопс с одинарной точностью и 1,33 терафлопс с плавающей запятой двойной точности. Доступны два варианта графического процессора: K20 (доступно для рабочих станций и серверов) и K20X (доступно только для серверов).Вот полные спецификации:

    Tesla K20 GPU Технические характеристики

    Ускоритель графического процессора NVIDIA Tesla K20

    Интегрировано в рабочие станции, серверы и кластеры графических процессоров Microway NumberSmasher и Navion

    Технические характеристики

    • 2496 ядер CUDA
    • 3,52 терафлопс одинарный, 1,17 терафлопс двойной
    • 5 ГБ памяти GDDR5
    • Пропускная способность памяти до 208 ГБ / сек
    • Интерфейс PCI-E x16 Gen2 к системе
    • Поддерживает динамический параллелизм и функции HyperQ
    • Пассивный (K20m) или активный (K20c) радиатор для серверов и рабочих станций

    Tesla K20X GPU (пиковая производительность) Технические характеристики

    Ускоритель графического процессора NVIDIA Tesla K20X

    Встроено в серверы и кластеры графических процессоров Microway NumberSmasher и Navion

    Технические характеристики

    • 2688 ядер CUDA
    • 3.95 терафлопс одинарный, 1,32 терафлопс двойной
    • 6 ГБ памяти GDDR5
    • Пропускная способность памяти до 250 ГБ / сек
    • Интерфейс PCI-E x16 Gen2 к системе
    • Поддерживает динамический параллелизм и функции HyperQ
    • Пассивный радиатор основан на охлаждении корпуса специально разработанных серверов с графическим процессором

    Технические характеристики

    Для технически подкованной аудитории, вот полный дамп информации от nvidia-smi на Tesla K20 и K20X GPU:

    nvidia-smi: Tesla K20

    ============== ЖУРНАЛ NVSMI ==============
    
    Отметка времени: 18 июля, четверг, 12:16:49 2013 г.
    Версия драйвера: 310.32
    
    Прикрепленные графические процессоры: 1
    Графический процессор 0000: 02: 00.0
        Название продукта: Tesla K20m
        Режим отображения: отключен
        Режим сохранения: включен
        Модель драйвера
            Текущий: N / A
            В ожидании: N / A
        Серийный номер: 033421200xxxx
        UUID графического процессора: GPU-dcf6d5d9-6a9e-xxxx-xxxx-e561b7xxxxxx
        Версия VBIOS: 80.10.11.00.06
        Версия Inforom
            Версия изображения: 2081.0208.01.07
            OEM объект: 1.1
            Объект ECC: 3.0
            Объект управления питанием: N / A
        Режим работы графического процессора
            Current: Вычислить
            Ожидание: вычислить
        PCI
            Автобус: 0x02
            Устройство: 0x00
            Домен: 0x0000
            Id устройства: 0x102810DE
            Идентификатор автобуса: 0000: 02: 00.0
            Идентификатор подсистемы: 0x101510DE
            Информация о подключении к графическому процессору
                Поколение PCIe
                    Макс: 2
                    Текущие: 1
                Ширина ссылки
                    Макс: 16x
                    Сила тока: 16x
        Скорость вентилятора: N / A
        Состояние производительности: P8
        Причины дроссельной заслонки часов
            Холостой ход: активен
            Пользовательские часы: неактивны
            Ограничение мощности ПО: неактивно
            HW Slowdown: не активен
            Неизвестно: не активен
        Использование памяти
            Всего: 5119 Мб
            Используется: 13 МБ
            Бесплатно: 5106 МБ
        Режим вычислений: по умолчанию
        Утилизация
            ГПУ: 0%
            Память: 0%
        Режим Ecc
            Текущее: отключено
            Ожидание: отключено
        Ошибки ECC
            Летучий
                Одиночный бит
                    Память устройства: N / A
                    Зарегистрированный файл: N / A
                    Кэш L1: N / A
                    Кэш L2: н / д
                    Память текстур: N / A
                    Итого: N / A
                Двойной бит
                    Память устройства: N / A
                    Зарегистрированный файл: N / A
                    Кэш L1: N / A
                    Кэш L2: н / д
                    Память текстур: N / A
                    Итого: N / A
            Совокупный
                Одиночный бит
                    Память устройства: N / A
                    Зарегистрированный файл: N / A
                    Кэш L1: N / A
                    Кэш L2: н / д
                    Память текстур: N / A
                    Итого: N / A
                Двойной бит
                    Память устройства: N / A
                    Зарегистрированный файл: N / A
                    Кэш L1: N / A
                    Кэш L2: н / д
                    Память текстур: N / A
                    Итого: N / A
        Температура
            ГПУ: 23 C
        Показания мощности
            Управление питанием: поддерживается
            Энергопотребление: 11.93 Вт
            Предел мощности: 225,00 Вт
            Предел мощности по умолчанию: 225,00 Вт.
            Мин. Предел мощности: 150,00 Вт
            Максимальный предел мощности: 225,00 Вт
        Часы
            Графика: 324 МГц
            SM: 324 МГц
            Память: 324 МГц
        Приложения Часы
            Графика: 705 МГц
            Память: 2600 МГц
        Макс. Часов
            Графика: 758 МГц
            SM: 758 МГц
            Память: 2600 МГц
        Вычислительные процессы: нет
     
     ============== ЖУРНАЛ NVSMI ==============
    
    Отметка времени: Вт 3 декабря 12:54:39 ​​2013
    Версия драйвера: 325.15
    
    Прикрепленные графические процессоры: 3
    Графический процессор 0000: 02: 00.0
        Поддерживаемые часы
            Память: 2600 МГц
                Графика: 758 МГц
                Графика: 705 МГц
                Графика: 666 МГц
                Графика: 640 МГц
                Графика: 614 МГц
            Память: 324 МГц
                Графика: 324 МГц
     

    nvidia-smi: Tesla K20X

    ============== ЖУРНАЛ NVSMI ==============
    
    Отметка времени: среда, 27 ноября, 15:47:57 2013 г.
    Версия драйвера: 319.37
    
    Прикрепленные графические процессоры: 1
    Графический процессор 0000: 02: 00.0
        Название продукта: Tesla K20Xm
        Режим отображения: отключен
        Дисплей активен: отключен
        Режим сохранения: включен
        Режим учета: отключен
        Размер буфера режима учета: 128
        Модель драйвера
            Текущий: N / A
            В ожидании: N / A
        Серийный номер: 032351309xxxx
        UUID графического процессора: GPU-23d6aecc-4996-d45a-a68c-15a69e0fxxxx
        Версия VBIOS: 80.10.39.00.02
        Версия Inforom
            Версия изображения: 2081.0200.01.09
            OEM объект: 1.1
            Объект ECC: 3.0
            Объект управления питанием: N / A
        Режим работы графического процессора
            Current: Вычислить
            Ожидание: вычислить
        PCI
            Автобус: 0x02
            Устройство: 0x00
            Домен: 0x0000
            Id устройства: 0x102110DE
            Идентификатор автобуса: 0000: 02: 00.0
            Идентификатор подсистемы: 0x097D10DE
            Информация о подключении к графическому процессору
                Поколение PCIe
                    Макс: 2
                    Текущие: 1
                Ширина ссылки
                    Макс: 16x
                    Сила тока: 16x
        Скорость вентилятора: N / A
        Состояние производительности: P8
        Причины дроссельной заслонки часов
            Холостой ход: активен
            Настройка часов приложений: неактивно
            Ограничение мощности SW: неактивно
            HW Slowdown: не активен
            Неизвестно: не активен
        Использование памяти
            Всего: 5759 Мб
            Используется: 12 МБ
            Бесплатно: 5747 МБ
        Режим вычислений: по умолчанию
        Утилизация
            ГПУ: 0%
            Память: 0%
        Режим Ecc
            Текущее: Включено
            Ожидание: включено
        Ошибки ECC
            Летучий
                Одиночный бит
                    Память устройства: 0
                    Зарегистрировать файл: 0
                    Кэш L1: 0
                    Кэш L2: 0
                    Память текстур: 0
                    Итого: 0
                Двойной бит
                    Память устройства: 0
                    Зарегистрировать файл: 0
                    Кэш L1: 0
                    Кэш L2: 0
                    Память текстур: 0
                    Итого: 0
            Совокупный
                Одиночный бит
                    Память устройства: 0
                    Зарегистрировать файл: 0
                    Кэш L1: 0
                    Кэш L2: 0
                    Память текстур: 0
                    Итого: 0
                Двойной бит
                    Память устройства: 0
                    Зарегистрировать файл: 0
                    Кэш L1: 0
                    Кэш L2: 0
                    Память текстур: 0
                    Итого: 0
        Удаленные страницы
            Однобитовый ECC: 0
            Двойной бит ECC: 0
            В ожидании: Нет
        Температура
            ГПУ: 27 C
        Показания мощности
            Управление питанием: поддерживается
            Энергопотребление: 30.88 Вт
            Предел мощности: 235.00 Вт
            Предел мощности по умолчанию: 235,00 Вт.
            Принудительный предел мощности: 235,00 Вт
            Мин. Предел мощности: 150,00 Вт
            Максимальный предел мощности: 235,00 Вт
        Часы
            Графика: 324 МГц
            SM: 324 МГц
            Память: 324 МГц
        Приложения Часы
            Графика: 732 МГц
            Память: 2600 МГц
        Часы приложений по умолчанию
            Графика: 732 МГц
            Память: 2600 МГц
        Макс. Часов
            Графика: 784 МГц
            SM: 784 МГц
            Память: 2600 МГц
        Вычислительные процессы: нет
     
    ============== ЖУРНАЛ NVSMI ==============
    
    Отметка времени: среда, 27 ноября, 15:49:32 2013 г.
    Версия драйвера: 319.37
    
    Прикрепленные графические процессоры: 1
    Графический процессор 0000: 02: 00.0
        Поддерживаемые часы
            Память: 2600 МГц
                Графика: 784 МГц
                Графика: 758 МГц
                Графика: 732 МГц
                Графика: 705 МГц
                Графика: 666 МГц
                Графика: 640 МГц
                Графика: 614 МГц
            Память: 324 МГц
                Графика: 324 МГц
     

    Запрос устройства CUDA для Tesla K20

    Утилита NVIDIA deviceQuery (из примеров CUDA SDK) демонстрирует, как приложения могут запрашивать возможности графического процессора с поддержкой CUDA.Эта утилита также предоставляет ценную информацию о продуктах Tesla GPU.

    nvidia-smi: Tesla K20

    deviceQuery Запускается ...
    
     Версия CUDA Device Query (Runtime API) (статическое связывание CUDART)
    
    Обнаружено 1 устройство (а) с поддержкой CUDA
    
    Устройство 0: «Тесла К20м»
      Версия драйвера CUDA / версия среды выполнения 5.5 / 5.5
      Номер версии CUDA Capability Major / Minor: 3.5
      Общий объем глобальной памяти: 5120 МБ (5368512512 байт)
      (13) Мультипроцессоры, (192) Ядра CUDA / MP: 2496 ядер CUDA
      Тактовая частота графического процессора: 706 МГц (0.71 ГГц)
      Тактовая частота памяти: 2600 МГц
      Ширина шины памяти: 320 бит
      Размер кэша L2: 1310720 байт
      Максимальный размер текстуры (x, y, z) 1D = (65536), 2D = (65536, 65536), 3D = (4096, 4096, 4096)
      Максимальный размер многослойной 1D текстуры, (число) слоев 1D = (16384), 2048 слоев
      Максимальный размер многослойной 2D-текстуры, (число) слоев 2D = (16384, 16384), 2048 слоев
      Общий объем постоянной памяти: 65536 байт
      Общий объем разделяемой памяти на блок: 49152 байта
      Общее количество регистров, доступных на блок: 65536
      Размер основы: 32
      Максимальное количество потоков на мультипроцессор: 2048
      Максимальное количество потоков на блок: 1024
      Максимальный размер блока резьбы (x, y, z): (1024, 1024, 64)
      Максимальный размер сетки (x, y, z): (2147483647, 65535, 65535)
      Максимальный шаг памяти: 2147483647 байт
      Выравнивание текстуры: 512 байт
      Одновременное копирование и выполнение ядра: Да с 2 механизмами копирования
      Ограничение времени работы на ядрах: Нет
      Встроенный графический процессор с общей памятью хоста: Нет
      Поддержка сопоставления памяти хоста с блокировкой страниц: Да
      Требование к выравниванию поверхностей: Да
      Устройство поддерживает ECC: отключено
      Устройство поддерживает унифицированную адресацию (UVA): Да
      Идентификатор шины PCI устройства / идентификатор местоположения PCI: 2/0
      Вычислительный режим:
         
    
    deviceQuery, драйвер CUDA = CUDART, версия драйвера CUDA = 5.5, CUDA Runtime Version = 5.5, NumDevs = 1, Device0 = Tesla K20m
    Результат = ПРОЙДЕН
     

    Различия в использовании Tesla K20 и K20X

    Стоит отметить, что существуют разные версии продуктов Tesla GPU в зависимости от типа установки. Для Tesla K20 мы можем предоставить все, от тихих рабочих станций до полноценных вычислительных кластеров. Для более производительного Tesla K20X возможности ограничены. В частности, невозможно предоставить тихую рабочую станцию.

    Если требуется форм-фактор башня / рабочая станция, у нас он есть.К сожалению, довольно шумно. На рынке нет тихой конфигурации для Tesla K20X. Пожалуйста, свяжитесь с одним из экспертов Microway по высокопроизводительным вычислениям, если вы хотите обсудить альтернативы.

    Для тех, кому интересно, почему существуют две отдельные версии продукта, это просто вопрос оптимизированного охлаждения. Взгляните на наши серверы GPU, и вы увидите, что воздушный поток аккуратно направляется через слоты GPU. Это обеспечивает наилучшее охлаждение для плотных инсталляций, но просто не охлаждает должным образом в конфигурациях рабочих станций.Для рабочих станций доступны версии с активным охлаждением для многих графических процессоров.

    Об Элиоте Эшелмане

    Мои интересы простираются от астрофизики до бактериофагов; высокопроизводительные компьютеры с небольшими сферическими магнитами. Я был заядлым фанатом Linux (с упором на HPC) более десяти лет. Я работаю вице-президентом Microway по стратегическим счетам и инициативам в области высокопроизводительных вычислений.

    Эта запись была размещена в Аппаратное обеспечение и помечена как gpu, tesla.Добавьте в закладки постоянную ссылку.

    HP NVIDIA Tesla K20 5GB GPU C2J97AA 900-22081-0320-000 [Tesla K20 Active]

    ОПИСАНИЕ

    NVIDIA Tesla K20 — Процессорный блок ускорителя вычислительного графического процессора 5 ГБ Активное охлаждение
    Сборка: 704203-002 Запасной: 736169-001

    Номер детали: C2J97AA

    Производитель nVidia
    Номер модели K20
    Номер детали: C2J97AA, в сборе: 704203-002 Запасной: 736169-001, 900-22081-0320-000
    Артикул VCNV001
    Ускорители NVIDIA Tesla GPU превращают стандартные ПК и рабочие станции в персональные суперкомпьютеры.На основе CUDA — самой распространенной в мире модели параллельных вычислений. Ускорители Tesla GPU для рабочих станций обеспечивают производительность на уровне кластера прямо на вашем рабочем месте.
    Технические характеристики:
    Система Рабочая станция / ПК
    Количество графических процессоров 1 х GK110
    Объем памяти (GDDR5) 5 ГБ
    ядер CUDA 2496
    Пиковая производительность с плавающей запятой двойной точности 1.17 Тфлопс
    Пиковая производительность с плавающей запятой одинарной точности 3,52 Тфлопс
    Пропускная способность памяти (ECC выкл.) 208 ГБ / сек
    Характеристики:
    Вычислительные приложения на GPU CFD, CAE, финансовые вычисления, вычислительная химия и физика, аналитика данных, спутниковая съемка, погодное моделирование
    Особенности архитектуры SMX, динамический параллелизм, Hyper-Q
    Упаковка:
    В комплекте: Блок графического процессора
    Состояние: Новый
    Гарантия: 30 дней

    ОТЗЫВЫ

    Характеристики Графическая карта HP C2J97AA NVIDIA Tesla K20 5 ГБ GDDR5 (C2J97AA)

    Гарантия:
    NVIDIA Tesla K20c имеет ограниченный срок в один год или оставшуюся часть продукта HP, в котором она установлена.Техническая поддержка доступна семь дней в неделю, 24 часа в сутки по телефону, а также на форумах онлайн-поддержки. Запасные части и ремонт доступны на месте в течение следующего рабочего дня. Для диагностики и установки деталей доступна поддержка по телефону. Действуют определенные ограничения и исключения.

    Полное название продукта Графическая карта HP C2J97AA NVIDIA Tesla K20 5 ГБ GDDR5
    :

    Краткое редакционное описание видеокарты HP C2J97AA NVIDIA Tesla K20 5 GB GDDR5

    Nvidia Tesla K20 5 ГБ GDDR5, PCI Express 2.0 x16

    Подробнее >>>


    Видеокарта HP C2J97AA NVIDIA Tesla K20 5 ГБ GDDR5:

    Официальный маркетинговый текст видеокарты HP C2J97AA NVIDIA Tesla K20 5 GB GDDR5 от производителя

    Вычислительные модули NVIDIA Tesla легко интегрируют вычисления на графическом процессоре с серверами HP ProLiant для горизонтально масштабируемого развертывания.Графические процессоры Tesla имеют емкость до 6 ГБ памяти GDDR5 с ECC и пиковую производительность до 1,32 Tflops с двойной точностью и до 3,95 Tflops с одинарной точностью. Модули графического процессора Tesla K20 и K20X представляют собой одиночные модули PCIe двойной ширины, основанные на архитектуре NVIDIA Kepler. Модуль Tesla K10 Dual GPU представляет собой один модуль PCIe с двумя графическими процессорами, которые оптимизированы для работы с одинарной точностью. Каждый графический процессор имеет 4 ГБ памяти и пиковую производительность 2,29 Tflop с одинарной точностью. Tesla M2070Q сочетает в себе высокопроизводительные вычисления Tesla с визуализацией профессионального уровня NVIDIA Quadro® на одном графическом процессоре.

    Повышение производительности для решения проблем за считанные минуты, а не часы.
    Вычислительные модули NVIDIA Tesla легко интегрируют вычисления на графическом процессоре с серией серверов HP ProLiant для горизонтально масштабируемого развертывания. Время вычислений для параллельных приложений может быть значительно сокращено, что сокращает время разработки решений. В качестве параллельных процессоров графические процессоры превосходно справляются с большими объемами схожих данных, поскольку проблема может быть разделена на сотни или тысячи частей и рассчитана одновременно.Комбинация процессоров GPU, обеспечивающих высокую производительность на ватт, и серверов HP ProLiant — самых энергоэффективных компьютеров в отрасли — резко снижает углеродный след, необходимый для своевременных решений. Включает программный интерфейс CUDA и сторонние инструменты разработки CUDA, а также HP Cluster Management Utility (CMU). CMU будет отслеживать и отображать состояние графического процессора, например температуру, а также установит и подготовит драйверы графического процессора и программное обеспечение CUDA.


    Краткое суммарное описание Графическая карта HP C2J97AA NVIDIA Tesla K20 5 ГБ GDDR5:

    Этот краткий итог описания графической карты HP C2J97AA NVIDIA Tesla K20 5 GB GDDR5 создан автоматически и использует название продукта и первые шесть основных характеристик.

    HP C2J97AA, Tesla K20, 5 ГБ, GDDR5, 320 бит, PCI Express 2.0


    Общее описание Графическая карта HP C2J97AA NVIDIA Tesla K20 5 ГБ GDDR5:

    Это автоматически сформированный общий итог графической карты HP C2J97AA NVIDIA Tesla K20 5 ГБ GDDR5 на основе первых трех спецификаций, первых пяти групп спецификаций.

    HP C2J97AA. Семейство графических процессоров: NVIDIA, Графический процессор: Tesla K20. Память дискретного графического адаптера: 5 ГБ, Тип памяти графического адаптера: GDDR5, Шина памяти: 320 бит. Версия DirectX: 11, версия OpenGL: 4.3. Тип интерфейса: PCI Express 2.0

    Семейство NVIDIA Tesla K20 вновь признано самым мощным в мире графическим процессором

    На этой неделе сотрудники NVIDIA дают понять, что семейство K20 с архитектурой Tesla GPU готово к действию, и на волне мощи появляется Titan — K20, ускоренный и названный самым быстрым суперкомпьютером в мире только сегодня утром.Суперкомпьютер Titan работает с чудовищными 18 688 графическими ускорителями NVIDIA Tesla K20X и дает понять, что это семейство более чем готово сбить крышу с крыши процессорами во многих отношениях. Модель K20X, работающая с Titan, не только является самым быстрым графическим процессором в мире, но и заняла первое место в списке Green500 по энергоэффективности.

    Это знаменательный день для NVIDIA, поскольку архитектура Tesla K20 вновь представлена ​​в ее окончательном виде на базе CUDA — также известной как «самая распространенная в мире модель параллельного программирования».NVIDIA подтверждает это утверждение, представив 8000 учреждений с разработчиками CUDA, 1500000 загрузок CUDA и 395000000 графических процессоров, поставляемых со встроенным CUDA. 629 университетских курсов преподаются на CUDA в 62 странах, поэтому можно с уверенностью сказать, что он здесь на какое-то время приходить.

    Семейство K20 также обеспечивает бесспорно новый уровень производительности в научных приложениях — именно поэтому суперкомпьютер Titan использует архитектуру для большинства своих процессов.Победитель Гордона Белла в 2011 году в области вычислительного моделирования составил 3,1 петафлопс (3,08 петафлопс на компьютере K), а новая работа NVIDIA в 2012 году принесла здесь 10+ петафлопс.

    И Tesla K20, и Tesla K20X работают с одним графическим процессором GK110 Kepler с вашими любимыми функциями — динамическим параллелизмом и Hyper-Q! Эти блоки имеют пиковую производительность двойной точности более одного терафлоп и обеспечивают в 10 раз большую производительность, чем один процессор. Это заявление NVIDIA основано на следующем: «Сравнение производительности Ws-lsMs между одиночным E5-2687W @ 3.10 ГГц против одиночного Tesla K20X. Tesla K20X> 650 гигафлопс ».

    Существует также модель Tesla K10, как вы должны знать, с объемом памяти 8 ГБ на плату и только SMX внутри вместо добавления динамического параллелизма и Hyper-Q, которые есть в K20 и K20X. K10 (опять же, присутствующий на рынке уже некоторое время) имеет пиковую производительность с плавающей запятой двойной точности 0,19 терафлопс и предназначен только для серверов — с другой стороны, его пиковая производительность с плавающей запятой одинарной точности равна 4.58 терафлопс. K20 обрабатывает 1,17 терафлопс и 3,52 терафлопс для производительности с плавающей запятой двойной и одинарной точности соответственно. K20X набирает 1,31 терафлопс и 3,95 терафлопс.

    K20 имеет объем памяти 5 ГБ на плату, в то время как K20X имеет 6 ГБ, и оба устройства имеют только один графический процессор GK110, в то время как K10 имеет два блока GK104 внутри. Блоки K20 созданы для выполнения огромных чудовищных задач, таких как финансовые вычисления, вычислительная химия и физика, а также спутниковая съемка. K10, с другой стороны, предназначен для сейсморазведки, обработки изображений, обработки сигналов и видеоаналитики.

    Семейство графических ускорителей NVIDIA Tesla K20 готово к работе на этой неделе — уже отправлено и доступно для заказа в вашем любимом компьютерном магазине. NVIDIA работает с Appro, ASUS, Cray, Eurotech, Fujitsu, HP, IBM, Quanta Computer, SGI, Supermicro, T-Platforms, Tyan и партнерами-реселлерами NVIDIA — у вас не будет недостатка в выборе. Бери K20 как можно быстрее!

    Ускорьте классификацию медицинских изображений с NVIDIA Tesla K20

    Этот блог посвящен нашему путешествию по портированию приложения WNDCHRM на NVIDIA Tesla K20 GPGPU.

    Анализ биологического изображения

    Wndchrm — это приложение для классификации медицинских изображений, разработанное Национальным институтом старения. Приложение может быть эффективно использовано для анализа биологических изображений с большим объемом данных изображения. Например, он используется для определения сходства между генами на основе фенотипа с использованием РНКи (интерференция рибонуклеиновой кислоты). Такой анализ полезен для определения потенциальных терапевтических целей, разработки лекарств и других приложений, таких как исследование взаимодействия вирусов и хостов.

    WND-CHRM

    WndChrm — это приложение с открытым исходным кодом и сокращенная форма для взвешенных расстояний между соседями, использующих сложную иерархию алгоритмов, представляющих морфологию. Приложение использует различные алгоритмы для извлечения функций (дескрипторов контента) и создает обучающую базу данных, называемую набором функций, для классификации входного изображения. Некоторые из используемых алгоритмов / функций включают

    • Особенности преобразования радона
    • Чебышев Статистика
    • Фильтры Габора
    • Первые 4 момента
    • Особенности текстуры тамура
    • Характеристики Цернике
    • Характеристики

    • Haralick

    По сравнению с другими приложениями точность wndchrm выше.

    Контрольное количество используемых функций

    Источник: http://ome.grc.nia.nih.gov/wnd-charm/PRL_2008.pdf

    GPGPU и CUDA

    Мы начали с установки NVIDIA Tesla K20 на сервере SuperMicron. Tesla K20 имеет 13 потоковых мультипроцессоров следующего поколения (SMX), каждый из которых имеет 192 ядра, 4 ГБ памяти и требует двух слотов PCIe на сервере. Также графический процессор должен получать питание через вспомогательные разъемы питания. В качестве операционной системы использовалась Ubuntu 14.04 с CUDA Toolkit 6.5. Сервер был оснащен четырехъядерным процессором Intel с тактовой частотой 2,5 ГГц и 16 ГБ оперативной памяти.

    Методология переноса

    Процесс переноса начинается с определения текущей производительности приложения на ЦП. На обработку одного изображения ушло 82 секунды. Для обработки набора из 200 изображений РНКи процесс занял около 4 часов 38 минут на одной консоли и 2 часа 15 минут на 4 консолях. Предел для консолей составлял 4, поскольку его дальнейшее масштабирование не повлияло на время обработки.

    Следующим шагом процесса было использование таких инструментов, как gprof и valgrind, для определения горячих точек в приложении Wndhrm.

    Следующая таблица представляет собой выход gprof

    Вывод gprof дает хорошее представление о горячих точках в приложении. Можно начать изучение функций, которые занимают большую часть времени, а затем начать перенос кода на GPU с помощью CUDA.

    (CUDA — это платформа параллельных вычислений и модель программирования, которая обеспечивает простой интерфейс программирования C / C ++, FORTRAN и Python для разработки / переноса приложений, работающих на процессорах, на графические процессоры.)

    Итак, после определения горячих точек начинается программирование CUDA. На данный момент необходимо понимать структуру исходного кода и различные варианты компиляции с использованием NVCC, драйвера компилятора CUDA. Во время разработки cuda-memcheck и cuda-gdb становятся удобными инструментами для выявления и изоляции проблем в коде CUDA. Визуальный профилировщик NVIDIA теперь можно использовать для профилирования кода, выполняемого в графическом процессоре.

    Первоначальная разработка включает запуск кода на графическом процессоре.Этот код не может быть полностью оптимизирован. Необходимо использовать профилировщик для определения характеристик кода, выполняемого на графическом процессоре, и использовать различные методы для достижения лучшей производительности.

    Некоторые методы, которые можно использовать для повышения производительности, включают

    • Потоки: Позволяет запускать более одного ядра одновременно
    • Динамический параллелизм: Позволяет запускать ядро ​​внутри ядра, лучше всего используется для оптимального использования ресурсов графического процессора
    • Использование общих / текстурных ячеек
    • Зарегистрируйте контроль использования с использованием launch_bound или параметров компилятора , таких как maxregcount

    Кроме того, во время разработки параметры отладки сохраняются, чтобы увидеть реальную достигнутую производительность, и измерения будут удобны с выпускной версией приложения.

    Помимо вышеупомянутых методов, мы также обнаружили библиотеки с ускорением на GPU, такие как CUBLAS, которые были простой заменой для таких задач, как умножение матриц.

    Как только все методы будут использованы, возможно, придется заняться поиском алгоритмических улучшений для повышения общей производительности.

    Например, в кодовом наборе расчеты выходных пикселей выполнялись с использованием нескольких потоков и с использованием функции atomicAdd. Из-за функции atomicAdd производительность должна была быть низкой.Итак, чтобы исключить atomicAdd и выполнять вычисления в одном потоке, нам пришлось отобразить вычисления выходных элементов в меньшем масштабе, как показано на рисунке ниже.

    С помощью этого обходного пути мы определили образец того, как вычисляется значение каждого пикселя, а затем изменили код CUDA, чтобы удалить функцию atomicAdd. После исключения время выполнения кода увеличилось с 6,2 до 1,5 секунд.

    Путешествие на этом не заканчивается. Согласно передовой практике CUDA, следует использовать подход APOD (активы, распараллеливание, оптимизация и развертывание), и цикл начинается заново.На каждом этапе можно найти больше возможностей для оптимизации и добиться улучшения от уровня миллисекунд до уровня микросекунд.

    Фактическая производительность

    На момент написания этого блога достигнутые показатели были следующими

    Общий размер кода ЦП, преобразованного в графический процессор, составил 526 строк. А общий размер кода CUDA составил 2557 строк. По сравнению с размером кода C ++ только 2% кода CUDA было добавлено для переноса приложения на графический процессор для достижения 12-кратной производительности.

    Вывод:

    Используя передовой опыт NVIDIA и библиотеки с ускорением на GPU, можно легко перенести приложения ЦП на ГП за короткий период времени и добиться повышения производительности, что сэкономит много времени и энергии. С помощью GPGPU и CUDA задачи, на выполнение которых может уйти несколько часов, можно оптимизировать для выполнения за считанные минуты!

    eInfochips предлагает услуги CUDA Consulting, Migration и System Design для компаний, желающих использовать графические процессоры NVIDIA в своих продуктах.

    Оставьте комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *