moneymonday
指數/外匯
明報APP

報章內容

Groq研發LPU挑戰Nvidia 專為大型語言模型而設 生成答案速度超GPU

【明報專訊】AI晶片龍頭Nvidia(美:NVDA)的圖像處理器(GPU),通常被視為運行AI模型的標配,但對於大型語言模型(LLM)的處理效率,AI初創公司Groq的語言處理器(Language Processing Unit, LPU),似乎超越Nvidia的GPU。Groq的LPU是推理引擎(inference engine),專為運行大型語言模型而設,可助OpenAI旗下的ChatGPT及Google旗下的Gemini等AI聊天機械人迅速反應。

速度差距最高可達18倍

根據Artificial Analysis的第三方測試,Groq生成答案的速度每秒可達241個tokens(語言模型生成內容的最小單位,包括單字、詞素及標點),相比以GPU驅動的微軟Azure生成答案的速度每秒只有18個tokens。根據Groq網站提供的數據,LPU運行Llama 2 70B模型時,其AI生成速度勝過所有基於雲端的生成式AI服務供應者,速度差距最高可達18倍,未來可能成為Nvidia GPU的競爭對手。市場等待Nvidia周三收市後公布業績,美股三大指數早段下滑。

AI晶片執行的任務主要分兩大類,分別是訓練及推理。訓練AI模型需要大量運算及記憶體容量,但存取速度並非最重要因素。不過在進行推理作出回應時要講求效率,讓用戶在短時間內獲得大量信息。

創辦人:繞過兩瓶頸 提升回應效率

Groq創辦人Jonathan Ross指出,透過LPU,Groq繞過了GPU和中央處理器(CPU)遇到的兩大LLM瓶頸——運算密度和記憶體頻寬,使回應效率提升。Groq的LPU擁有230MB靜態隨機存取記憶體(SRAM)及每秒80 TB記憶體頻寬,優於傳統的CPU和GPU配置。Ross創業前曾是Google一個AI晶片部門的創辦人之一。該部門研究用於訓練AI模型的尖端晶片。

CryptoSlate指出,將售價為19,948美元的Groq LPU,與價格相若的Nvidia旗艦A100 GPU對比,Groq LPU處理大量簡單資料(INT8)的效率表現優勝,不過當處理更複雜的資料處理任務(FP16),並需要更高的精確度,Groq LPU無法達到A100 的水平。Groq LPU主要用於運行LLM,而不是原始運算或微調模型。

此外,美國科技媒體The Information引述知情人士稱,微軟(美:MSFT)正開發一款新的網絡卡(network card),以提升其AI晶片Maia的效能,並藉此降低對Nvidia GPU的依賴。消息稱,微軟已找來網絡設備開發商Juniper Networks的聯合創辦人Pradeep Sindhu來領導網絡卡的開發。微軟去年收購了Sindhu的伺服器晶片初創公司Fungible。

據稱,微軟的網絡卡類似於Nvidia的ConnectX-7,可能需要逾一年時間開發。倘若成功,可能會減少OpenAI在微軟伺服器訓練模型所需的時間。

(綜合報道)

[國際金融]