Ne Lasu Stokadon Fariĝi la Ŝlosila Botelkolo en Modela Trejnado

Oni diris, ke teknologiaj kompanioj aŭ luktas por GPU-oj aŭ survoje akiri ilin. En aprilo, Tesla CEO Elon Musk aĉetis 10,000 GPU-ojn kaj deklaris, ke la kompanio daŭre aĉetos grandan kvanton da GPU-oj de NVIDIA. En la entreprena flanko, IT-personaro ankaŭ forte premas certigi, ke GPU-oj estas konstante uzataj por maksimumigi profiton de investo. Tamen, iuj kompanioj povas trovi, ke dum la nombro da GPU-oj pliiĝas, GPU-senlaboreco fariĝas pli severa.

Se la historio instruis al ni ion pri alt-efikeca komputado (HPC), tio estas, ke stokado kaj retoj ne devas esti oferitaj koste de tro multe koncentriĝi pri komputado. Se stokado ne povas efike transdoni datumojn al la komputikaj unuoj, eĉ se vi havas la plej multajn GPU-ojn en la mondo, vi ne atingos optimuman efikecon.

Laŭ Mike Matchett, analizisto ĉe Small World Big Data, pli malgrandaj modeloj povas esti ekzekutitaj en memoro (RAM), permesante pli da fokuso pri komputado. Tamen, pli grandaj modeloj kiel ChatGPT kun miliardoj da nodoj ne povas esti konservitaj en memoro pro la alta kosto.

"Vi ne povas enteni miliardojn da nodoj en memoro, do stokado fariĝas eĉ pli grava," diras Matchett. Bedaŭrinde, datumstokado ofte estas preteratentita dum la planado.

Ĝenerale, sendepende de la uzkazo, ekzistas kvar komunaj punktoj en la modela trejnado:

1. Modela Trejnado
2. Inferenca Apliko
3. Stokado de datumoj
4. Akcelita Komputado

Dum kreado kaj deplojado de modeloj, la plej multaj postuloj prioritatas rapidan pruvo-de-koncepton (POC) aŭ testajn mediojn por komenci modeltrejnadon, kun datumstokado-bezonoj ne donitaj plej altan konsideron.

Tamen, la defio kuŝas en la fakto, ke trejnado aŭ inferenca deplojo povas daŭri monatojn aŭ eĉ jarojn. Multaj kompanioj rapide pligrandigas siajn modelgrandojn dum ĉi tiu tempo, kaj la infrastrukturo devas disetendiĝi por alĝustigi la kreskantajn modelojn kaj datumarojn.

Esplorado de Google pri milionoj da ML-trejnadŝarĝoj rivelas, ke mezumo de 30% de trejna tempo estas elspezita en la eniga datuma dukto. Dum pasintaj esploroj koncentriĝis pri optimumigo de GPU-oj por akceli trejnadon, multaj defioj ankoraŭ restas en optimumigo de diversaj partoj de la datumdukto. Kiam vi havas signifan komputilan potencon, la vera proplemkolo fariĝas kiom rapide vi povas provizi datumojn en la komputadon por akiri rezultojn.

Specife, la defioj en datumstokado kaj administrado postulas planadon por datumkresko, permesante al vi senĉese ĉerpi la valoron de datumoj dum vi progresas, precipe kiam vi enriskiĝas en pli altnivelajn uzkazojn kiel profunda lernado kaj neŭralaj retoj, kiuj postulas pli altajn postulojn je stokado laŭ kapacito, efikeco kaj skalebleco.

Precipe:

Skalebleco
Maŝinlernado postulas manipuli vastajn kvantojn da datumoj, kaj kiam la volumo de datumoj pliiĝas, la precizeco de modeloj ankaŭ pliboniĝas. Ĉi tio signifas, ke entreprenoj devas kolekti kaj stoki pli da datumoj ĉiutage. Kiam stokado ne povas grimpi, datumintensaj laborkvantoj kreas proplempunktojn, limigante rendimenton kaj rezultigante multekostan GPU-malfunkcian tempon.

Fleksebleco
Fleksebla subteno por multoblaj protokoloj (inkluzive de NFS, SMB, HTTP, FTP, HDFS kaj S3) estas necesa por renkonti la bezonojn de malsamaj sistemoj, prefere ol esti limigita al ununura speco de medio.

Latenteco
I/O-latenteco estas kritika por konstrui kaj uzi modelojn ĉar datumoj estas legitaj kaj relegitaj plurfoje. Redukti I/O-latentecon povas mallongigi la trejnadon de modeloj je tagoj aŭ monatoj. Pli rapida modelevoluo rekte tradukiĝas al pli grandaj komercaj avantaĝoj.

Trapaso
La trairo de stokadsistemoj estas decida por efika modeltrejnado. Trejnadprocezoj implikas grandajn kvantojn da datenoj, tipe en terabajtoj je horo.

Paralela Aliro
Por atingi altan trairon, trejnadmodeloj disigas agadojn en multoblajn paralelajn taskojn. Ĉi tio ofte signifas, ke maŝinlernado-algoritmoj aliras la samajn dosierojn de pluraj procezoj (eble sur pluraj fizikaj serviloj) samtempe. La stokadsistemo devas trakti samtempajn postulojn sen endanĝerigi rendimenton.

Kun ĝiaj elstaraj kapabloj en malalta latencia, alta trairo kaj grandskala paralela I/O, Dell PowerScale estas ideala stokada komplemento al GPU-akcelita komputado. PowerScale efike reduktas la tempon necesan por analizmodeloj, kiuj trejnas kaj testas mult-terabajtajn datenojn. En PowerScale tute-flash-stokado, bendolarĝo pliiĝas je 18 fojojn, forigante I/O-protokolojn, kaj povas esti aldonita al ekzistantaj Isilon-aretoj por akceli kaj malŝlosi la valoron de grandaj kvantoj de nestrukturitaj datumoj.

Plie, la plurprotokolaj alirkapabloj de PowerScale disponigas senliman flekseblecon por prizorgi laborkvantojn, permesante al datumoj esti stokitaj uzante unu protokolon kaj alireblaj per alia. Specife, la potencaj funkcioj, fleksebleco, skaleblo kaj entrepren-nivela funkcieco de la platformo PowerScale helpas trakti la sekvajn defiojn:

- Akcelu novigon ĝis 2,7 fojojn, reduktante la modelan trejnan ciklon.

- Forigu I/O-protokolojn kaj havigu pli rapidan modelan trejnadon kaj validigon, plibonigitan modelan precizecon, plibonigitan datuman sciencan produktivecon kaj maksimumigitan profiton de komputilaj investoj utiligante entreprenajn funkciojn, altan rendimenton, samtempecon kaj skaleblon. Plibonigu modelan precizecon per pli profundaj, pli alt-rezoluciaj datumaroj utiligante ĝis 119 PB de efika stoka kapacito en ununura areto.

- Atingu deplojon je skalo komencante malgrandan kaj sendepende skalan komputadon kaj stokadon, liverante fortikan datuman protekton kaj sekurecajn elektojn.

- Plibonigu datuman sciencan produktivecon per surloka analizo kaj antaŭvalidigitaj solvoj por pli rapidaj, malaltriskaj deplojoj.

- Utiligante pruvitajn dezajnojn bazitajn sur plej bonaj teknologioj, inkluzive de NVIDIA GPU-akcelado kaj referencaj arkitekturoj kun NVIDIA DGX-sistemoj. La alta rendimento kaj samtempeco de PowerScale plenumas la stokadajn postulojn en ĉiu stadio de maŝinlernado, de akiro kaj preparado de datumoj ĝis modela trejnado kaj inferenco. Kune kun la operaciumo OneFS, ĉiuj nodoj povas perfekte funkcii ene de la sama OneFS-movita areto, kun entrepren-nivelaj funkcioj kiel agado-administrado, datumadministrado, sekureco kaj datumprotekto, ebligante pli rapidan kompletigon de modeltrejnado kaj validumado por entreprenoj.


Afiŝtempo: Jul-03-2023