QRコードをスキャンしてダウンロードしてください。
BTC $76,529.98 -2.18%
ETH $2,097.35 -4.12%
BNB $640.36 -2.05%
XRP $1.38 -2.61%
SOL $84.39 -2.42%
TRX $0.3551 -0.27%
DOGE $0.1037 -6.08%
ADA $0.2492 -2.10%
BCH $373.58 -9.44%
LINK $9.42 -3.16%
HYPE $45.57 -0.13%
AAVE $88.19 -2.60%
SUI $1.04 -2.16%
XLM $0.1460 -3.42%
ZEC $544.53 +4.45%
BTC $76,529.98 -2.18%
ETH $2,097.35 -4.12%
BNB $640.36 -2.05%
XRP $1.38 -2.61%
SOL $84.39 -2.42%
TRX $0.3551 -0.27%
DOGE $0.1037 -6.08%
ADA $0.2492 -2.10%
BCH $373.58 -9.44%
LINK $9.42 -3.16%
HYPE $45.57 -0.13%
AAVE $88.19 -2.60%
SUI $1.04 -2.16%
XLM $0.1460 -3.42%
ZEC $544.53 +4.45%

DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。

2025-02-18 16:37:45
コレクション

ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。

DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。

一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。

関連タグ
関連タグ
app_icon
ChainCatcher Building the Web3 world with innovations.