外观
一站式大模型API服务
一站式大模型API服务可以通过标准化的API接口,远程调用人工智能模型(如大语言模型、图像生成模型、语音识别模型等)进行推理计算。用户无需下载、部署或维护大型 AI 模型,只需向 API 发送请求,就能获得 AI 模型返回的智能结果。
核心优势
大模型API一键调用,无需考虑底层资源和环境的设置; 支持LLM、文生图、图生图、文生视频、图生视频等多种模型接入。
快速入门
1. 注册和登录
在苏州市公共算力服务平台官网首页,点击右上角"登录"按钮,进行账号的注册与登录。支持手机验证码注册登录与账号密码登录。
2. 选择模型
2.1 模型广场
点击控制台,找到模型广场页面,可以看到目前已接入的所有模型。可以通过"查看详情",可以查看模型调用方式,价格,和基本信息。
2.2 模型价格
模型根据单次使用量分阶梯定价,细化同用户群体的价格体系。
3. 原生OPENAI格式,API 端点调用模型API 服务
模型详情页的上方展示了模型相关信息、模型端点 API 服务信息,复制后可申请调用该API.
模型详情页提供该模型 API 服务调用地址,复制地址,即可开始 API 服务调用。
以下是代码示例:
请求地址: https://mapi.szsuanli.com/v1/chat/completions
3.1 Header 参数:
在 Header 添加参数 Authorization , 其值为在服务模型-令牌管理(API-KEY)中获得 {'Authorization': '5****6-00f2-***6-****-3a****2d-****'}
3.2 body 参数:
📌 参数详解
1. model - 模型名称
- 含义:指定使用的大语言模型
- 示例:
"qwen3-max","qwen3.5-plus" - 作用:不同的模型能力、速度、价格不同
2. messages - 消息列表
- 含义:对话的消息历史,是一个数组
- 结构示例:
json
"messages": [
{"role": "system", "content": "你是一个有帮助的助手"},
{"role": "user", "content": "你好"},
{"role": "assistant", "content": "你好!有什么可以帮你的吗?"},
{"role": "user", "content": "今天天气怎么样"}
]3. stream - 是否流式输出
- 含义:是否开启流式响应(Server-Sent Events)
- 类型:布尔值
- 示例:
"stream": true或"stream": false - 作用:
true— AI一个字一个字地返回,像打字机效果,用户体验好,响应快false— 等全部生成完后一次性返回
- 注意:流式输出需要在客户端用
EventSource或类似机制接收
4. temperature - 温度参数
- 含义:控制输出的随机性/创造性
- 取值范围:
0 ~ 2(常用 0 ~ 1) - 示例:
"temperature": 0.0— 最确定性,每次输出几乎相同,适合精确任务(如代码、数学)"temperature": 0.7— 平衡,常用默认值"temperature": 1.0或更高 — 更随机、更有创意,但可能偏离主题
- 经验:
- 写代码/翻译/回答事实:用 0 ~ 0.3
- 日常对话/创意写作:用 0.7 ~ 0.9
- 需要天马行空想象:用 1.0+
5. top_p - 核采样参数
- 含义:累积概率阈值,也称"nucleus sampling"
- 取值范围:
0 ~ 1 - 示例:
"top_p": 0.9 - 工作原理:
- 模型先按概率排序所有可能的下一个词
- 只从概率累加到 top_p 的词中选择
- 例如
top_p = 0.9= 只从概率最高的那一批词(累计90%概率)中选择
- 与 temperature 的关系:
top_p越大 → 考虑的词越多 → 更随机- 通常 二选一使用,不同时调大(会冲突)
- 建议:要么调
temperature,要么调top_p,不要同时调高
6. frequency_penalty - 频率惩罚
- 含义:减少重复词汇的出现频率
- 取值范围:通常
-2.0 ~ 2.0 - 示例:
"frequency_penalty": 0— 不惩罚,词可以重复出现"frequency_penalty": 1.0— 明显减少重复"frequency_penalty": 2.0— 强力避免重复
- 作用:如果AI总是重复同一个词(如“你你你你”),调大此值可以抑制
7. presence_penalty - 存在惩罚
- 含义:降低已经出现过的词再次出现的概率
- 取值范围:通常
-2.0 ~ 2.0 - 示例:
"presence_penalty": 0.5 - 与 frequency_penalty 的区别:
参数 关注点 效果 frequency_penalty词出现次数 出现越多,惩罚越重 presence_penalty词是否出现过 只要出现过,就统一惩罚 - 使用建议:
- 想让AI换句话说 → 用
presence_penalty - 想让AI少重复 → 用
frequency_penalty
- 想让AI换句话说 → 用
✅ 完整请求示例
json
{
"model": "qwen3.5-plus",
"messages": [
{"role": "system", "content": "你是一个专业的编程助手"},
{"role": "user", "content": "用Python写一个快速排序"}
],
"stream": False,
"temperature": 0.3,
"top_p": 0.95,
"frequency_penalty": 0,
"presence_penalty": 0
}3.3代码示例(python)
python
import requests
import json
headers = {
"Authorization": "<API_KEY>",
"Content-Type": "application/json",
}
payload = {
"model": "kimi-k2.5",
"messages": ["role":"user","content":'你好,人类的未来是怎样的?'],
"stream": False,
"temperature":0.7,
"top_p":1,
"persence_penalty": 0,
"frequency_penalty":0
}
response = requests.post(
"https://mapi.szsuanli.com/v1/chat/completions",
headers=headers,
json=payload,
timeout=60
)
print(response.status_code)
print(json.dumps(response.json(), ensure_ascii=False, indent=2))3.4 curl请求
bash
curl -N -X POST https://mapi.szsuanli.com/v1/chat/completions \
-H "Authorization: <API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-max",
"messages": [{"role":"user","content":'你好,人类的未来是怎样的?'}],
"stream": False,
"temperature": 0.7,
"top_p": 1,
"persence_penalty": 0,
"frequency_penalty": 0
}'3.5请求响应示例:(非流模式)
json
{
"id": "chatcmpl-dc1e7fef9aabad35edb366b76b7483f6",
"object": "chat.completion",
"created": 1777015250,
"model": "MiniMax-M2.5",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "\n\n以下是一些常用的夸赞人的成语:**形容外表/气质:希望这些成语对你有帮助!如果你需要特定场景使用的成语,随时告诉我。",
"refusal": null,
"annotations": null,
"audio": null,
"function_call": null,
"tool_calls": [],
"reasoning": "用户想要一些夸赞人的成语。我需要提供一些常用且积极的夸赞成语。\n",
"reasoning_content": "用户想要一些夸赞人的成语。我需要提供一些常用且积极的夸赞成语。\n"
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null,
"token_ids": null
}
],
"service_tier": null,
"system_fingerprint": null,
"usage": {
"prompt_tokens": 46,
"total_tokens": 274,
"completion_tokens": 228,
"prompt_tokens_details": null
},
"prompt_logprobs": null,
"prompt_token_ids": null,
"kv_transfer_params": null
}✅ 说明
这是模型返回的响应数据,包含:
| 字段 | 含义 |
|---|---|
id | 消息唯一标识 |
object | 对象类型(chat.completion) |
created | 创建时间戳 |
model | 使用的模型(MiniMax-M2.5) |
choices[].message.content | AI 返回的回复内容 |
usage | token 使用量统计 |
4. 原生Claude格式,API 端点调用模型API 服务
模型详情页提供该模型 API 服务调用地址,复制地址,即可开始 API 服务调用。
以下是代码示例:
请求地址: https://mapi.szsuanli.com/v1/messages
4.1 Header 参数:
在 Header 添加参数 Authorization , 其值为在服务模型-令牌管理(API-KEY)中获得 {'Authorization': '5****6-00f2-***6-****-3a****2d-****'}
4.2 body 参数:
📌 参数详解
1. model - 模型名称
- 含义:指定使用的大语言模型
- 示例:
"moonshotai/kimi-k2.5" - 作用:不同的模型能力、速度、价格不同
你提供的这段代码是一个典型的 大语言模型(LLM)API 请求体(request body),用于向模型(这里是 Claude 3 Opus)发送对话请求。下面我逐项解释每个参数的含义:
2. "messages":消息列表
- 含义:表示对话上下文,是一个数组,包含多轮对话历史。
- 结构:json
{ "role": "user", "content": "string" } - 字段说明:
role(角色):"user":用户输入"assistant":模型之前的回复(用于多轮对话)"system":Claude 不支持system角色(与 OpenAI 不同)!若需系统提示,应放在第一条user消息中,或使用system参数(见下文补充)。
content(内容):- 可以是纯文本(如
"你好") - 也可以是多模态内容(如文本 + 图片),但需用特定格式(Claude 支持图像输入)
- 可以是纯文本(如
✅ 注意:你这里只有一条用户消息,模型会基于这条消息生成回复。
3. "max_tokens": 1
- 含义:限制模型最多生成多少个 token。
- 说明:
1表示模型最多只输出 1 个 token(比如一个词、一个标点)。- 这通常用于测试或控制输出长度(如生成摘要、分类标签)。
- 如果设为
0或省略,模型会使用默认最大长度(Claude 3 Opus 最多支持 4096 输出 tokens)。
- 单位:
- token 不是“字”,英文中一个 token ≈ 一个词,中文中一个 token ≈ 1~2 个字。
- 例如:
"你好"≈ 2 tokens,"Hello world"≈ 2 tokens。
⚠️ 补充说明(Claude 特有)
- ✅ 这是 Claude 推荐的系统提示方式。
- ❌ 不要写成:
{"role": "system", "content": "..."}(Claude 会报错)。
✅ 完整建议请求体
json
{
"model": "claude-3-opus-20240229",
"system": "你是一个有帮助且准确的AI助手。",
"messages": [
{"role": "user", "content": "请解释什么是量子计算?"}
],
"max_tokens": 1024
}📌 总结
| 参数 | 作用 | 注意事项 |
|---|---|---|
model | 指定模型 | 使用官方模型 ID |
messages | 对话历史 | Claude 不支持 role: "system" |
max_tokens | 限制生成长度 | 设为 1 仅用于特殊场景 |
4.3代码示例(python)
python
import requests
import json
headers = {
"Authorization": "<API_KEY>",
"Content-Type": "application/json",
}
payload = {
"model": "kimi-k2.5",
"messages": ["role":"user","content":'你好,人类的未来是怎样的?'],
"max_tokens":1024
}
response = requests.post(
"https://mapi.szsuanli.com/v1/messages",
headers=headers,
json=payload,
timeout=60
)
print(response.status_code)
print(json.dumps(response.json(), ensure_ascii=False, indent=2))4.4 curl请求
bash
curl -N -X POST https://mapi.szsuanli.com/v1/messages \
-H "Authorization: <API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-max",
"messages": [{"role":"user","content":'你好,人类的未来是怎样的?'}],
"max_tokens": 1024
}'4.5请求响应示例:
json
{
"id": "chatcmpl-6b676b7453104560b126cc17c22c609d",
"type": "message",
"role": "assistant",
"content": [
{
"type": "text",
"text": "你好。这是一个既令人兴奋又充满敬畏的问题。坦白说,**没有人能够确切预言人类的未来**,因为未来是由无数个当下的选择编织而成的。但我们可以基于现有的趋势,描绘几种可能的路径和关键变量:\n\n## 1. 技术奇点与智能革命\n未来20-50年,我们可能会面临**人工智能的深刻重构**:\n- **工作与社会**:大规模自动化可能终结\"劳动换取生存\"的模式,迫使我们重新定义\"价值\"和\"意义\"。Universal"
}
],
"stop_reason": "max_tokens",
"model": "moonshotai/kimi-k2.5",
"usage": {
"input_tokens": 14,
"cache_creation_input_tokens": 0,
"cache_read_input_tokens": 0,
"output_tokens": 308,
"claude_cache_creation_5_m_tokens": 0,
"claude_cache_creation_1_h_tokens": 0
}
}✅ 总结:各字段作用速查表
| 字段 | 作用 |
|---|---|
id | 请求唯一ID,用于追踪 |
type | 响应类型(message/tool_use等) |
role | 消息角色(assistant/user) |
content | 生成内容(支持多块、多模态) |
stop_reason | 停止原因(判断是否被截断) |
model | 实际调用的模型名称 |
usage | token 消耗统计(计费依据) |
如果你需要避免截断,建议在请求中设置:
json
{
"max_tokens": 1024 // 或更大,根据需求
}
