一站式大模型API服务

一站式大模型API服务可以通过标准化的API接口，远程调用人工智能模型（如大语言模型、图像生成模型、语音识别模型等）进行推理计算。用户无需下载、部署或维护大型 AI 模型，只需向 API 发送请求，就能获得 AI 模型返回的智能结果。

核心优势

大模型API一键调用，无需考虑底层资源和环境的设置；支持LLM、文生图、图生图、文生视频、图生视频等多种模型接入。

快速入门

1. 注册和登录

在苏州市公共算力服务平台官网首页，点击右上角"登录"按钮，进行账号的注册与登录。支持手机验证码注册登录与账号密码登录。

2. 选择模型

2.1 模型广场

点击控制台，找到模型广场页面，可以看到目前已接入的所有模型。可以通过"查看详情"，可以查看模型调用方式，价格，和基本信息。

2.2 模型价格

模型根据单次使用量分阶梯定价，细化同用户群体的价格体系。

3. 原生OPENAI格式，API 端点调用模型API 服务

模型详情页的上方展示了模型相关信息、模型端点 API 服务信息，复制后可申请调用该API.

模型详情页提供该模型 API 服务调用地址，复制地址，即可开始 API 服务调用。

以下是代码示例：

请求地址： https://mapi.szsuanli.com/v1/chat/completions

3.1 Header 参数：

在 Header 添加参数 Authorization ，其值为在服务模型-令牌管理(API-KEY)中获得 {'Authorization': '5****6-00f2-***6-****-3a****2d-****'}

3.2 body 参数：

📌 参数详解

1. `model` - 模型名称

含义：指定使用的大语言模型
示例："qwen3-max", "qwen3.5-plus"
作用：不同的模型能力、速度、价格不同

2. `messages` - 消息列表

含义：对话的消息历史，是一个数组
结构示例：

json

"messages": [
  {"role": "system", "content": "你是一个有帮助的助手"},
  {"role": "user", "content": "你好"},
  {"role": "assistant", "content": "你好！有什么可以帮你的吗？"},
  {"role": "user", "content": "今天天气怎么样"}
]

3. `stream` - 是否流式输出

含义：是否开启流式响应（Server-Sent Events）
类型：布尔值
示例："stream": true 或 "stream": false
作用：
- true — AI一个字一个字地返回，像打字机效果，用户体验好，响应快
- false — 等全部生成完后一次性返回
注意：流式输出需要在客户端用 EventSource 或类似机制接收

4. `temperature` - 温度参数

含义：控制输出的随机性/创造性
取值范围：0 ~ 2（常用 0 ~ 1）
示例：
- "temperature": 0.0 — 最确定性，每次输出几乎相同，适合精确任务（如代码、数学）
- "temperature": 0.7 — 平衡，常用默认值
- "temperature": 1.0 或更高 — 更随机、更有创意，但可能偏离主题
经验：
- 写代码/翻译/回答事实：用 0 ~ 0.3
- 日常对话/创意写作：用 0.7 ~ 0.9
- 需要天马行空想象：用 1.0+

5. `top_p` - 核采样参数

含义：累积概率阈值，也称"nucleus sampling"
取值范围：0 ~ 1
示例："top_p": 0.9
工作原理：
- 模型先按概率排序所有可能的下一个词
- 只从概率累加到 top_p 的词中选择
- 例如 top_p = 0.9 = 只从概率最高的那一批词（累计90%概率）中选择
与 temperature 的关系：
- top_p 越大 → 考虑的词越多 → 更随机
- 通常 二选一使用，不同时调大（会冲突）
- 建议：要么调 temperature，要么调 top_p，不要同时调高

6. `frequency_penalty` - 频率惩罚

含义：减少重复词汇的出现频率
取值范围：通常 -2.0 ~ 2.0
示例：
- "frequency_penalty": 0 — 不惩罚，词可以重复出现
- "frequency_penalty": 1.0 — 明显减少重复
- "frequency_penalty": 2.0 — 强力避免重复
作用：如果AI总是重复同一个词（如“你你你你”），调大此值可以抑制

7. `presence_penalty` - 存在惩罚

含义：降低已经出现过的词再次出现的概率
取值范围：通常 -2.0 ~ 2.0
示例："presence_penalty": 0.5
与 frequency_penalty 的区别：
参数关注点效果
frequency_penalty 词出现次数出现越多，惩罚越重
presence_penalty 词是否出现过 只要出现过，就统一惩罚
使用建议：
- 想让AI换句话说 → 用 presence_penalty
- 想让AI少重复 → 用 frequency_penalty

参数	关注点	效果
`frequency_penalty`	词出现次数	出现越多，惩罚越重
`presence_penalty`	词是否出现过	只要出现过，就统一惩罚

✅ 完整请求示例

json

{
  "model": "qwen3.5-plus",
  "messages": [
    {"role": "system", "content": "你是一个专业的编程助手"},
    {"role": "user", "content": "用Python写一个快速排序"}
  ],
  "stream": False,
  "temperature": 0.3,
  "top_p": 0.95,
  "frequency_penalty": 0,
  "presence_penalty": 0
}

3.3代码示例(python)

python

import requests
import json

headers = {
    "Authorization": "<API_KEY>",
    "Content-Type": "application/json",
	}

payload = {
    "model": "kimi-k2.5",
    "messages": ["role":"user","content":'你好,人类的未来是怎样的?'],
    "stream": False,
    "temperature":0.7,
    "top_p":1,
    "persence_penalty": 0，
	"frequency_penalty":0
	}

response = requests.post(
    "https://mapi.szsuanli.com/v1/chat/completions",
    headers=headers,
    json=payload,
    timeout=60
	)

print(response.status_code)
print(json.dumps(response.json(), ensure_ascii=False, indent=2))

3.4 curl请求

bash

curl -N -X POST https://mapi.szsuanli.com/v1/chat/completions \
-H "Authorization: <API_KEY>" \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-max",
    "messages": [{"role":"user","content":'你好,人类的未来是怎样的?'}],
    "stream": False,
    "temperature": 0.7,
    "top_p": 1,
	"persence_penalty": 0,
    "frequency_penalty": 0
	}'

3.5请求响应示例:（非流模式）

json

{
  "id": "chatcmpl-dc1e7fef9aabad35edb366b76b7483f6",
  "object": "chat.completion",
  "created": 1777015250,
  "model": "MiniMax-M2.5",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "\n\n以下是一些常用的夸赞人的成语：**形容外表/气质：希望这些成语对你有帮助！如果你需要特定场景使用的成语，随时告诉我。",
        "refusal": null,
        "annotations": null,
        "audio": null,
        "function_call": null,
        "tool_calls": [],
        "reasoning": "用户想要一些夸赞人的成语。我需要提供一些常用且积极的夸赞成语。\n",
        "reasoning_content": "用户想要一些夸赞人的成语。我需要提供一些常用且积极的夸赞成语。\n"
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null,
      "token_ids": null
    }
  ],
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "prompt_tokens": 46,
    "total_tokens": 274,
    "completion_tokens": 228,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null,
  "prompt_token_ids": null,
  "kv_transfer_params": null
}

✅ 说明

这是模型返回的响应数据，包含：

字段	含义
`id`	消息唯一标识
`object`	对象类型（chat.completion）
`created`	创建时间戳
`model`	使用的模型（MiniMax-M2.5）
`choices[].message.content`	AI 返回的回复内容
`usage`	token 使用量统计

4. 原生Claude格式，API 端点调用模型API 服务

模型详情页提供该模型 API 服务调用地址，复制地址，即可开始 API 服务调用。

以下是代码示例：

请求地址： https://mapi.szsuanli.com/v1/messages

4.1 Header 参数：

在 Header 添加参数 Authorization ，其值为在服务模型-令牌管理(API-KEY)中获得 {'Authorization': '5****6-00f2-***6-****-3a****2d-****'}

4.2 body 参数：

📌 参数详解

1. `model` - 模型名称

含义：指定使用的大语言模型
示例："moonshotai/kimi-k2.5"
作用：不同的模型能力、速度、价格不同

你提供的这段代码是一个典型的 大语言模型（LLM）API 请求体（request body），用于向模型（这里是 Claude 3 Opus）发送对话请求。下面我逐项解释每个参数的含义：

2. `"messages"`：消息列表

含义：表示对话上下文，是一个数组，包含多轮对话历史。

结构：

json

{
  "role": "user",
  "content": "string"
}

字段说明：
- role（角色）：
  - "user"：用户输入
  - "assistant"：模型之前的回复（用于多轮对话）
  - "system"：Claude 不支持 system 角色（与 OpenAI 不同）！若需系统提示，应放在第一条 user 消息中，或使用 system 参数（见下文补充）。
- content（内容）：
  - 可以是纯文本（如 "你好"）
  - 也可以是多模态内容（如文本 + 图片），但需用特定格式（Claude 支持图像输入）

✅ 注意：你这里只有一条用户消息，模型会基于这条消息生成回复。

3. `"max_tokens": 1`

含义：限制模型最多生成多少个 token。
说明：
- 1 表示模型最多只输出 1 个 token（比如一个词、一个标点）。
- 这通常用于测试或控制输出长度（如生成摘要、分类标签）。
- 如果设为 0 或省略，模型会使用默认最大长度（Claude 3 Opus 最多支持 4096 输出 tokens）。
单位：
- token 不是“字”，英文中一个 token ≈ 一个词，中文中一个 token ≈ 1~2 个字。
- 例如："你好" ≈ 2 tokens，"Hello world" ≈ 2 tokens。

⚠️ 补充说明（Claude 特有）

✅ 这是 Claude 推荐的系统提示方式。
❌ 不要写成：{"role": "system", "content": "..."}（Claude 会报错）。

✅ 完整建议请求体

json

{
  "model": "claude-3-opus-20240229",
  "system": "你是一个有帮助且准确的AI助手。",
  "messages": [
    {"role": "user", "content": "请解释什么是量子计算？"}
  ],
  "max_tokens": 1024
}

📌 总结

参数	作用	注意事项
`model`	指定模型	使用官方模型 ID
`messages`	对话历史	Claude 不支持 `role: "system"`
`max_tokens`	限制生成长度	设为 1 仅用于特殊场景

4.3代码示例(python)

python

import requests
import json

headers = {
    "Authorization": "<API_KEY>",
    "Content-Type": "application/json",
	}

payload = {
    "model": "kimi-k2.5",
    "messages": ["role":"user","content":'你好,人类的未来是怎样的?'],
	"max_tokens":1024
	}

response = requests.post(
    "https://mapi.szsuanli.com/v1/messages",
    headers=headers,
    json=payload,
    timeout=60
	)

print(response.status_code)
print(json.dumps(response.json(), ensure_ascii=False, indent=2))

4.4 curl请求

bash

curl -N -X POST https://mapi.szsuanli.com/v1/messages \
-H "Authorization: <API_KEY>" \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-max",
    "messages": [{"role":"user","content":'你好,人类的未来是怎样的?'}],
    "max_tokens": 1024
	}'

4.5请求响应示例:

json

{
  "id": "chatcmpl-6b676b7453104560b126cc17c22c609d",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "你好。这是一个既令人兴奋又充满敬畏的问题。坦白说，**没有人能够确切预言人类的未来**，因为未来是由无数个当下的选择编织而成的。但我们可以基于现有的趋势，描绘几种可能的路径和关键变量：\n\n## 1. 技术奇点与智能革命\n未来20-50年，我们可能会面临**人工智能的深刻重构**：\n- **工作与社会**：大规模自动化可能终结\"劳动换取生存\"的模式，迫使我们重新定义\"价值\"和\"意义\"。Universal"
    }
  ],
  "stop_reason": "max_tokens",
  "model": "moonshotai/kimi-k2.5",
  "usage": {
    "input_tokens": 14,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 308,
    "claude_cache_creation_5_m_tokens": 0,
    "claude_cache_creation_1_h_tokens": 0
  }
}

✅ 总结：各字段作用速查表

字段	作用
`id`	请求唯一ID，用于追踪
`type`	响应类型（message/tool_use等）
`role`	消息角色（assistant/user）
`content`	生成内容（支持多块、多模态）
`stop_reason`	停止原因（判断是否被截断）
`model`	实际调用的模型名称
`usage`	token 消耗统计（计费依据）

如果你需要避免截断，建议在请求中设置：

json

{
  "max_tokens": 1024  // 或更大，根据需求
}

一站式大模型API服务 ​

核心优势 ​

快速入门 ​

1. 注册和登录 ​

2. 选择模型 ​

2.1 模型广场 ​

2.2 模型价格 ​

3. 原生OPENAI格式，API 端点调用模型API 服务 ​

3.1 Header 参数： ​

3.2 body 参数： ​

📌 参数详解 ​

1. model - 模型名称 ​

2. messages - 消息列表 ​

3. stream - 是否流式输出 ​

4. temperature - 温度参数 ​

5. top_p - 核采样参数 ​

6. frequency_penalty - 频率惩罚 ​

7. presence_penalty - 存在惩罚 ​

✅ 完整请求示例 ​

3.3代码示例(python) ​

3.4 curl请求 ​

3.5请求响应示例:（非流模式） ​

✅ 说明 ​

4. 原生Claude格式，API 端点调用模型API 服务 ​

4.1 Header 参数： ​

4.2 body 参数： ​

📌 参数详解 ​

1. model - 模型名称 ​

2. "messages"：消息列表 ​

3. "max_tokens": 1 ​

⚠️ 补充说明（Claude 特有） ​

✅ 完整建议请求体 ​

📌 总结 ​

4.3代码示例(python) ​

4.4 curl请求 ​

4.5请求响应示例: ​

✅ 总结：各字段作用速查表 ​

一站式大模型API服务

核心优势

快速入门

1. 注册和登录

2. 选择模型

2.1 模型广场

2.2 模型价格

3. 原生OPENAI格式，API 端点调用模型API 服务

3.1 Header 参数：

3.2 body 参数：

📌 参数详解

1. `model` - 模型名称

2. `messages` - 消息列表

3. `stream` - 是否流式输出

4. `temperature` - 温度参数

5. `top_p` - 核采样参数

6. `frequency_penalty` - 频率惩罚

7. `presence_penalty` - 存在惩罚

✅ 完整请求示例

3.3代码示例(python)

3.4 curl请求

3.5请求响应示例:（非流模式）

✅ 说明

4. 原生Claude格式，API 端点调用模型API 服务

4.1 Header 参数：

4.2 body 参数：

📌 参数详解

1. `model` - 模型名称

2. `"messages"`：消息列表

3. `"max_tokens": 1`

⚠️ 补充说明（Claude 特有）

✅ 完整建议请求体

📌 总结

4.3代码示例(python)

4.4 curl请求

4.5请求响应示例:

✅ 总结：各字段作用速查表