Термично управление на AI чип

Aug 02, 2024

В момента други технологични гиганти като Microsoft, Google и Meta също разширяват своите центрове за данни, за да обучават и управляват своите модели с изкуствен интелект. Според докладите Microsoft и OpenAI планират да изградят проект за център за данни, който ще включва суперкомпютър с милиони специализирани сървърни чипове, а настоящият проект може да струва 115 милиарда долара, включително суперкомпютър с изкуствен интелект, наречен Stargate, който се очаква да стартира през 2028 г. Главният изпълнителен директор на Meta Марк Зукърбърг също заяви през януари тази година, че изчислителната инфраструктура на компанията ще включва 30 000 H100 графични карти до края на 2024 г. Той също така добави, „Ако се включат други GPU, има приблизително 600 000 H100 еквивалентни изчисления.

AI computing

AIGC се основава на големи модели и големи данни. Големият модел се отнася до модел, който може да се адаптира към задачи надолу по веригата след обучение върху широкомащабни и широки данни. След появата на голям модел, (1) параметрите на модела се увеличават по величина; (2) Диверсифицираното търсене ускорява диверсифицираното надграждане на изчислителната мощност: Изчислителната мощност може да бъде разделена на основна изчислителна мощност, интелигентна изчислителна мощност и суперкомпютърна мощност в съответствие с търсенето. През 2021 г. общата изчислителна мощност на глобалните изчислителни устройства достигна 615 EFlops, с темп на растеж от 44%. До 2030 г. се очаква да нарасне до 56ZFlops, с CAGR от 65%. Интелигентната изчислителна мощност ще се увеличи от 232EFlops до 52.5ZFlops, с CAGR над 80%; След появата на големия модел, той донесе нова тенденция за растеж на изчислителната мощност със средно време за удвояване от 9,9 месеца за изчислителна мощност.

AIGC chip cooling

Зад подобряването на изчислителната мощност, чиповете трябва да имат по-висока изчислителна ефективност и да извършват повече изчисления за по-кратко време, което неизбежно води до увеличаване на консумацията на енергия на чиповете. Характеристиките на високата плътност и високата консумация на енергия на центровете за данни в суперкомпютърните центрове правят проблемите с разсейването на топлината все по-важни. Съвременните центрове за данни, особено суперкомпютърните центрове, обикновено съдържат голям брой устройства с висока мощност, които генерират значително количество топлина по време на работа. Ако топлината не може да бъде разсеяна своевременно и ефективно, това не само ще повлияе на производителността на устройството, но може също да доведе до хардуерни повреди. Според доклада на IDC около 40% от потреблението на енергия в центровете за данни се използва за системи за охлаждане, което показва, че ефективните решения за охлаждане са от решаващо значение за работата на центровете за данни.

data canter liquid cooling

Традиционните системи за въздушно охлаждане вече не са в състояние да отговорят на нуждите от охлаждане на настоящите суперкомпютри, така че технологията за течно охлаждане постепенно се превърна в основен избор в индустрията. Прилагането на технология за течно охлаждане позволява на центровете за данни да побират повече изчислителни устройства в едно и също пространство, като същевременно намалява консумацията на енергия на охладителната система. Прилагането на технология за течно охлаждане не само подобрява изчислителната ефективност, но и значително намалява консумацията на енергия и оперативните разходи. Технологията за течно охлаждане може да се справи с повече изчислителни задачи със същата консумация на енергия чрез по-ефективно топлопроводимост.

data center immersion liquid cooling

С нарастващото търсене на AI обучение и високопроизводителни изчисления, технологията за течно охлаждане ще играе по-важна роля в бъдещите суперкомпютърни центрове. Очаква се технологията за течно охлаждане да стане стандартна конфигурация в суперкомпютърни центрове и големи центрове за данни през следващите години, за да отговори на нарастващите компютърни изисквания и предизвикателствата, свързани с разсейването на топлината.

Един чифт: Нарастващото търсене на AI ще направи решението за течно охлаждане по-популярно

Следваща: Мултиплатформено приложение на плоча за течно охлаждане

Знание

Термично управление на AI чип