AI 智慧岛
返回发现
Qwen

Qwen2 7B Instruct (Free)

Qwen/Qwen2-7B-Instruct
Qwen2-7B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 7B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型,并在某些任务上展现出与专有模型相当的竞争力。Qwen2-7B-Instruct 在多项评测中均优于 Qwen1.5-7B-Chat,显示出显著的性能提升
32K

支持该模型的服务商

Qwen
SiliconCloudSiliconCloud
QwenQwen/Qwen2-7B-Instruct
最大上下文长度
32K
最大输出长度
--
输入价格
--
输出价格
--
GiteeAIGiteeAI
QwenQwen/Qwen2-7B-Instruct
最大上下文长度
--
最大输出长度
--
输入价格
--
输出价格
--

模型参数

随机性
temperature

此设置影响模型回应的多样性。较低的值会导致更可预测和典型的回应,而较高的值则鼓励更多样化和不常见的回应。当值设为0时,模型对于给定的输入总是给出相同的回应。 查看文档

类型
FLOAT
默认值
1.00
范围
0.00 ~ 2.00
核采样
top_p

此设置将模型的选择限制为可能性最高的一定比例的词汇:只选择那些累计概率达到P的顶尖词汇。较低的值使得模型的回应更加可预测,而默认设置则允许模型从全部范围的词汇中进行选择。 查看文档

类型
FLOAT
默认值
1.00
范围
0.00 ~ 1.00
话题新鲜度
presence_penalty

此设置旨在根据词汇在输入中出现的频率来控制词汇的重复使用。它尝试较少使用那些在输入中出现较多的词汇,其使用频率与出现频率成比例。词汇惩罚随出现次数而增加。负值将鼓励重复使用词汇。 查看文档

类型
FLOAT
默认值
0.00
范围
-2.00 ~ 2.00
频率惩罚度
frequency_penalty

此设置调整模型重复使用输入中已经出现的特定词汇的频率。较高的值使得这种重复出现的可能性降低,而负值则产生相反的效果。词汇惩罚不随出现次数增加而增加。负值将鼓励词汇的重复使用。 查看文档

类型
FLOAT
默认值
0.00
范围
-2.00 ~ 2.00
单次回复限制
max_tokens

此设置定义了模型在单次回复中可以生成的最大长度。设置较高的值允许模型生成更长的回应,而较低的值则限制回应的长度,使其更简洁。根据不同的应用场景,合理调整此值可以帮助达到预期的回应长度和详细程度。 查看文档

类型
INT
默认值
--
推理强度
reasoning_effort

此设置用于控制模型在生成回答前的推理强度。低强度优先响应速度并节省 Token,高强度提供更完整的推理,但会消耗更多 Token 并降低响应速度。默认值为中,平衡推理准确性与响应速度。 查看文档

类型
STRING
默认值
--
范围
low ~ high

相关模型

DeepSeek

DeepSeek R1

deepseek-ai/DeepSeek-R1
DeepSeek-R1 系列通过强化学习与冷启动数据优化推理性能,开源模型刷新多任务标杆,超越 OpenAI-o1-mini 水平。
64K
DeepSeek

DeepSeek V3

deepseek-ai/DeepSeek-V3
DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。
64K
DeepSeek

DeepSeek R1 (Pro)

Pro/deepseek-ai/DeepSeek-R1
DeepSeek-R1 是一款强化学习(RL)驱动的推理模型,解决了模型中的重复性和可读性问题。在 RL 之前,DeepSeek-R1 引入了冷启动数据,进一步优化了推理性能。它在数学、代码和推理任务中与 OpenAI-o1 表现相当,并且通过精心设计的训练方法,提升了整体效果。
64K
DeepSeek

DeepSeek V3 (Pro)

Pro/deepseek-ai/DeepSeek-V3
DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。
64K
Meta

DeepSeek R1 Distill Llama 70B

deepseek-ai/DeepSeek-R1-Distill-Llama-70B
DeepSeek-R1 蒸馏模型,通过强化学习与冷启动数据优化推理性能,开源模型刷新多任务标杆。
32K