Grok 3 - AI 助手

結合來自 X 的即時資訊

Grok 3 Feature
Grok 3 Feature

什麼是 Grok 3

Grok 3 是 xAI 最新的語言模型,使用突破性的強化學習框架在 200,000 GPU 叢集上訓練。它擁有 270 億參數和 128 萬個標記的上下文視窗,具備即時知識檢索能力。

通過 Think 模式,Grok 3 可以進行持續 6 秒到 6 分鐘的深度思考過程,展現超越人類專家水平的表現。在 AIME 2025 競賽中達到 93.3% 的準確率,在研究生級別的 GPQA 中達到 84.6%。

作為多功能 AI 助手,Grok 3 支援 12 種程式語言,可以處理圖像和視頻內容,並使用 DeepSearch 進行即時資訊驗證。

主要功能

探索 Grok 3 的革命性突破

強化思考引擎

  • 支援 6 秒至 6 分鐘的深度思考過程
  • AIME 2025 競賽中達到 93.3% 準確率(64 次思考迭代)
  • GPQA 鑽石級問題達到 84.6% 準確率(超越人類專家)
  • 基於 200k GPU 叢集的強化學習框架

數學與科學

  • AIME 2024/2025 兩年平均:94.5% 準確率
  • MMLU-Pro 基準測試:79.9% 準確率(STEM 領域領先)
  • 複雜數學問題的平均延遲:67ms

程式碼生成與最佳化

  • LiveCodeBench v5:79.4% 準確率(即時程式評估)
  • 支援百萬行程式碼庫分析
  • 支援包括 Python/Java/C++ 在內的 12 種語言

多模態理解

  • MMMU 基準測試:73.2% 準確率
  • EgoSchema 長視頻理解:74.5% 準確率
  • 圖像-文字混合問題解決提升 42%

即時知識引擎

  • 涵蓋即時網路數據 + 來自 𝕏 平台的社交數據
  • 複雜查詢的平均回應時間 <800ms
  • 支援來自超過 1,200 個可信來源的交叉驗證

長上下文處理

  • 1M 標記上下文記憶體(約 750k 字元)
  • 3000 頁技術文件的一次性分析
  • LOFT 128k 基準測試中達到 83.3% 準確率

效能比較

Competition Math

Grok 3 Beta (Think)93.3%
Grok 3 mini Beta (Think)90.8%
DeepSeek-R170.0%
Gemini 2.0 Flash Thinking53.5%

Graduate-Level Google-Proof Q&A (Diamond)

Grok 3 Beta (Think)84.6%
Grok 3 mini Beta (Think)84.0%
DeepSeek-R171.5%
Gemini 2.0 Flash Thinking74.2%

LiveCodeBench (v5)

Code Generation: 10/1/2024 - 2/1/2025

Grok 3 Beta (Think)79.4%
Grok 3 mini Beta (Think)80.4%
Deepseek-R1-Preview64.3%
Gemini 2.0 Flash Thinking45.8%

MMMU

Multimodal Understanding

Grok 3 Beta (Think)78.0%
Gemini 2.0 Flash Thinking75.4%
o178.2%

常見問題