BahayBalitaArkitektura ng Imbakan na Na-optimize ng AI

Arkitektura ng Imbakan na Na-optimize ng AI

Ang isang susunod na henerasyong imprastraktura ng imbakan na idinisenyo upang tulungan ang mga AI system na pangasiwaan ang napakalaking memorya ng konteksto at multi-turn na pangangatwiran ay nakatakda upang muling hubugin kung paano sinusuportahan ang malakihang inference workloads.



Isang bagong klase ng AI-oriented storage technology ng NVIDIA ang lumitaw na humaharap sa isa sa pinakamatitinding hamon sa modernong AI workloads: pamamahala at pagbabahagi ng napakaraming data ng konteksto nang mahusay sa panahon ng hinuha.Ang mga tradisyunal na storage at memory hierarchies na binuo para sa generic na pag-compute sa halip na ang mga partikular na pangangailangan ng AI ay nagpupumilit na magpatuloy habang ang mga modelo ay lumalago sa multi-agent, multi-turn na mga sistema ng pangangatwiran na nangangailangan ng patuloy, malaking kapasidad na context memory.

Ang pangunahing bahagi ng pag-unlad ay isang dalubhasang processor ng data na sumasailalim sa bagong inanunsyong AI-native storage architecture, na nagpapalawak ng memorya ng GPU at nagbabahagi ng key-value (KV) inference cache sa mga cluster na may mataas na bandwidth at predictable latency.Ang pagbabagong ito ay hinihimok ng paglipat ng AI mula sa iisang agarang pagpoproseso patungo sa tuluy-tuloy, pang-konteksto na pangangatwiran, kung saan ang malaking nakabahaging memorya ay mahalaga para sa pagtugon at katumpakan.

Ang mga pangunahing tampok ay:

Pinapalawak ang memorya ng GPU na may kapasidad ng cache ng cluster-scale key-value para sa inference na pang-context.
Hanggang 5x mas mataas na token-per-second throughput kumpara sa tradisyonal na storage.
Binabawasan ng hardware-accelerated KV cache placement ang overhead ng metadata at paggalaw ng data.
Mahusay na pagbabahagi ng konteksto sa mga node sa pamamagitan ng Ethernet na may mataas na pagganap.
Hanggang sa 5x na mas mahusay na kahusayan ng kuryente kaysa sa mga nakasanayang arkitektura ng imbakan.
Ang mga kasosyo sa industriya kabilang ang mga malalaking storage at system vendor ay gumagawa na ng mga sumusuportang platform, nagpaplano ng availability sa ikalawang kalahati ng 2026. Ang mga naunang benchmark at projection ay nagha-highlight ng makabuluhang mga nadagdag sa performance at kahusayan para sa mga inference na workload na nakadepende sa mabilis na pag-access at pagbabahagi ng konteksto.Higit pa sa hilaw na performance, tinutugunan ng bagong imprastraktura ang scalability at energy efficiency, dalawang hadlang na nagpatibay sa mga data center habang lumalaki ang mga workload ng AI.Sa pamamagitan ng pag-decoupling ng mga serbisyo ng storage mula sa mga host CPU at pagpapagana ng hardware-accelerated na paglalagay ng key-value cache data, nangangako ang arkitektura ng hanggang limang beses na pagpapahusay sa mga token na naproseso bawat segundo at power efficiency kumpara sa mga conventional storage system sa ilalim ng mga katulad na load.

Ang disenyong ito ay nagdudulot din ng mas mahigpit na pagsasama sa pagitan ng high-performance na networking, memory, at mga function ng storage, na gumagamit ng mga advanced na Ethernet fabric upang makapaghatid ng mababang latency, remote na direktang pag-access sa memory sa mga server.Ang resulta ay isang pundasyon na mas mahusay na nakaayon sa mga umuusbong na paradigm ng inference kung saan kritikal ang pagtitiyaga ng memorya at pagbabahagi ng konteksto ng cross-node.Habang umuunlad ang imprastraktura ng AI, ang storage tier na ito ay maaaring maging pangunahing enabler para sa susunod na henerasyong mga serbisyo ng AI, nagpapababa ng latency at mga gastos sa enerhiya habang sinusuportahan ang mas kumplikadong mga gawain sa pangangatwiran sa laki.