Perplxity，上新模型推理速度1200t/秒

kris 2025-02-12 13:05:14 4

默认

摘要： Perplexity于2025年2月11日推出的新版Sonar搜索模型，标志着AI搜索引擎领域的技术突破。该模型基于Meta的Llama 3.3 7...

Perplexity于2025年2月11日推出的新版Sonar搜索模型，标志着AI搜索引擎领域的技术突破。该模型基于Meta的Llama 3.3 70B架构优化，结合Cerebras的推理基础设施，在速度、准确性和用户体验方面实现全面提升。

核心技术突破：

1. 模型架构优化
- 基础架构：基于Llama 3.3 70B进行强化监督微调和人类反馈强化学习
- 性能表现：
IFEval指令遵循得分92.3（对比GPT-4o的89.7）
MMLU多领域知识测试达82.1分（接近Llama 3.1 405B水平）

2. 推理加速
- 采用Cerebras WSE-3晶圆级芯片
- 处理速度达每秒1200 tokens（同类快10倍）
- 搜索响应时间0.31秒（对比GPU方案提升15-57倍）

性能对比：
用户满意度：Sonar 84.7 | GPT-4o mini 78.2 | Claude 3.5 Haiku 79.5
响应延迟：Sonar 0.31秒 | GPT-4o mini 2.4秒 | Claude 3.5 Haiku 1.9秒
搜索成本：Sonar $0.003/次 | 竞品$0.012-$0.015/次

商业应用：
实时搜索：支持128k上下文窗口处理复杂查询
企业API服务：
- 基础版：$5/千次搜索+$1/百万输入token
- Pro版：$5/千次搜索+$15/百万输出token（双倍引用源）

技术生态：
- Cerebras集群支持2048节点扩展（内存带宽900GB/s）
- 已集成Zoom等企业应用（实时会议信息支持）

数据来源：Perplexity官方A/B测试与Cerebras技术白皮书

目前Sonar已向Pro用户开放设置选项，API服务计划2025年第二季度全面商用。这项创新不仅提升了搜索体验，更推动了专用AI硬件在语言模型推理领域的规模化应用。 #perplxity

本文来自：什么值得买

标签：显卡太平洋的水