LobeChat
Ctrl K
返回发现
DeepSeek

DeepSeek V3

deepseek-ai/DeepSeek-V3
DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。
64K

支持该模型的服务商

DeepSeek
SiliconCloudSiliconCloud
DeepSeekdeepseek-ai/DeepSeek-V3
最大上下文长度
64K
最大输出长度
--
输入价格
$0.14
输出价格
$0.28

模型参数

随机性
temperature

此设置影响模型回应的多样性。较低的值会导致更可预测和典型的回应,而较高的值则鼓励更多样化和不常见的回应。当值设为0时,模型对于给定的输入总是给出相同的回应。 查看文档

类型
FLOAT
默认值
1.00
范围
0.00 ~ 2.00
核采样
top_p

此设置将模型的选择限制为可能性最高的一定比例的词汇:只选择那些累计概率达到P的顶尖词汇。较低的值使得模型的回应更加可预测,而默认设置则允许模型从全部范围的词汇中进行选择。 查看文档

类型
FLOAT
默认值
1.00
范围
0.00 ~ 1.00
话题新鲜度
presence_penalty

此设置旨在根据词汇在输入中出现的频率来控制词汇的重复使用。它尝试较少使用那些在输入中出现较多的词汇,其使用频率与出现频率成比例。词汇惩罚随出现次数而增加。负值将鼓励重复使用词汇。 查看文档

类型
FLOAT
默认值
0.00
范围
-2.00 ~ 2.00
频率惩罚度
frequency_penalty

此设置调整模型重复使用输入中已经出现的特定词汇的频率。较高的值使得这种重复出现的可能性降低,而负值则产生相反的效果。词汇惩罚不随出现次数增加而增加。负值将鼓励词汇的重复使用。 查看文档

类型
FLOAT
默认值
0.00
范围
-2.00 ~ 2.00
单次回复限制
max_tokens

此设置定义了模型在单次回复中可以生成的最大长度。设置较高的值允许模型生成更长的回应,而较低的值则限制回应的长度,使其更简洁。根据不同的应用场景,合理调整此值可以帮助达到预期的回应长度和详细程度。 查看文档

类型
INT
默认值
--
推理强度
reasoning_effort

此设置用于控制模型在生成回答前的推理强度。低强度优先响应速度并节省 Token,高强度提供更完整的推理,但会消耗更多 Token 并降低响应速度。默认值为中,平衡推理准确性与响应速度。 查看文档

类型
STRING
默认值
--
范围
low ~ high

相关模型

DeepSeek

DeepSeek R1

deepseek-ai/DeepSeek-R1
DeepSeek-R1 是一款强化学习(RL)驱动的推理模型,解决了模型中的重复性和可读性问题。在 RL 之前,DeepSeek-R1 引入了冷启动数据,进一步优化了推理性能。它在数学、代码和推理任务中与 OpenAI-o1 表现相当,并且通过精心设计的训练方法,提升了整体效果。
64K
DeepSeek

DeepSeek V2.5

deepseek-ai/DeepSeek-V2.5
DeepSeek-V2.5 是 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的升级版本,集成了两个先前版本的通用和编码能力。该模型在多个方面进行了优化,包括写作和指令跟随能力,更好地与人类偏好保持一致。DeepSeek-V2.5 在各种评估基准上都取得了显著的提升,如 AlpacaEval 2.0、ArenaHard、AlignBench 和 MT-Bench 等。
32K
DeepSeek

DeepSeek VL2

deepseek-ai/deepseek-vl2
DeepSeek-VL2 是一个基于 DeepSeekMoE-27B 开发的混合专家(MoE)视觉语言模型,采用稀疏激活的 MoE 架构,在仅激活 4.5B 参数的情况下实现了卓越性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等多个任务中表现优异。
4K
Qwen

QVQ 72B Preview

Qwen/QVQ-72B-Preview
QVQ-72B-Preview 是由 Qwen 团队开发的专注于视觉推理能力的研究型模型,其在复杂场景理解和解决视觉相关的数学问题方面具有独特优势。
32K
Qwen

QwQ 32B Preview

Qwen/QwQ-32B-Preview
QwQ模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。
32K