Skip to content

一站式大模型API服务

一站式大模型API服务可以通过标准化的API接口,远程调用人工智能模型(如大语言模型、图像生成模型、语音识别模型等)进行推理计算。用户无需下载、部署或维护大型 AI 模型,只需向 API 发送请求,就能获得 AI 模型返回的智能结果。

核心优势

大模型API一键调用,无需考虑底层资源和环境的设置; 支持LLM、文生图、图生图、文生视频、图生视频等多种模型接入。

快速入门

1. 注册和登录

在苏州市公共算力服务平台官网首页,点击右上角"登录"按钮,进行账号的注册与登录。支持手机验证码注册登录与账号密码登录。

2. 选择模型

2.1 模型广场

点击控制台,找到模型广场页面,可以看到目前已接入的所有模型。可以通过"查看详情",可以查看模型调用方式,价格,和基本信息。

2.2 模型价格

模型根据单次使用量分阶梯定价,细化同用户群体的价格体系。

3. 原生OPENAI格式,API 端点调用模型API 服务

模型详情页的上方展示了模型相关信息、模型端点 API 服务信息,复制后可申请调用该API.

模型详情页提供该模型 API 服务调用地址,复制地址,即可开始 API 服务调用。

以下是代码示例:

请求地址: https://mapi.szsuanli.com/v1/chat/completions

3.1 Header 参数:

在 Header 添加参数 Authorization , 其值为在服务模型-令牌管理(API-KEY)中获得 {'Authorization': '5****6-00f2-***6-****-3a****2d-****'}

3.2 body 参数:


📌 参数详解

1. model - 模型名称
  • 含义:指定使用的大语言模型
  • 示例"qwen3-max", "qwen3.5-plus"
  • 作用:不同的模型能力、速度、价格不同

2. messages - 消息列表
  • 含义:对话的消息历史,是一个数组
  • 结构示例
json
"messages": [
  {"role": "system", "content": "你是一个有帮助的助手"},
  {"role": "user", "content": "你好"},
  {"role": "assistant", "content": "你好!有什么可以帮你的吗?"},
  {"role": "user", "content": "今天天气怎么样"}
]
3. stream - 是否流式输出
  • 含义:是否开启流式响应(Server-Sent Events)
  • 类型:布尔值
  • 示例"stream": true"stream": false
  • 作用
    • true — AI一个字一个字地返回,像打字机效果,用户体验好,响应快
    • false — 等全部生成完后一次性返回
  • 注意:流式输出需要在客户端用 EventSource 或类似机制接收

4. temperature - 温度参数
  • 含义:控制输出的随机性/创造性
  • 取值范围0 ~ 2(常用 0 ~ 1)
  • 示例
    • "temperature": 0.0最确定性,每次输出几乎相同,适合精确任务(如代码、数学)
    • "temperature": 0.7平衡,常用默认值
    • "temperature": 1.0 或更高 — 更随机、更有创意,但可能偏离主题
  • 经验
    • 写代码/翻译/回答事实:用 0 ~ 0.3
    • 日常对话/创意写作:用 0.7 ~ 0.9
    • 需要天马行空想象:用 1.0+

5. top_p - 核采样参数
  • 含义累积概率阈值,也称"nucleus sampling"
  • 取值范围0 ~ 1
  • 示例"top_p": 0.9
  • 工作原理
    • 模型先按概率排序所有可能的下一个词
    • 只从概率累加到 top_p 的词中选择
    • 例如 top_p = 0.9 = 只从概率最高的那一批词(累计90%概率)中选择
  • 与 temperature 的关系
    • top_p 越大 → 考虑的词越多 → 更随机
    • 通常 二选一使用,不同时调大(会冲突)
    • 建议:要么调 temperature,要么调 top_p,不要同时调高

6. frequency_penalty - 频率惩罚
  • 含义减少重复词汇的出现频率
  • 取值范围:通常 -2.0 ~ 2.0
  • 示例
    • "frequency_penalty": 0 — 不惩罚,词可以重复出现
    • "frequency_penalty": 1.0 — 明显减少重复
    • "frequency_penalty": 2.0 — 强力避免重复
  • 作用:如果AI总是重复同一个词(如“你你你你”),调大此值可以抑制

7. presence_penalty - 存在惩罚
  • 含义降低已经出现过的词再次出现的概率
  • 取值范围:通常 -2.0 ~ 2.0
  • 示例"presence_penalty": 0.5
  • 与 frequency_penalty 的区别
    参数关注点效果
    frequency_penalty词出现次数出现越多,惩罚越重
    presence_penalty词是否出现过只要出现过,就统一惩罚
  • 使用建议
    • 让AI换句话说 → 用 presence_penalty
    • 让AI少重复 → 用 frequency_penalty

✅ 完整请求示例

json
{
  "model": "qwen3.5-plus",
  "messages": [
    {"role": "system", "content": "你是一个专业的编程助手"},
    {"role": "user", "content": "用Python写一个快速排序"}
  ],
  "stream": False,
  "temperature": 0.3,
  "top_p": 0.95,
  "frequency_penalty": 0,
  "presence_penalty": 0
}

3.3代码示例(python)

python
import requests
import json

headers = {
    "Authorization": "<API_KEY>",
    "Content-Type": "application/json",
	}

payload = {
    "model": "kimi-k2.5",
    "messages": ["role":"user","content":'你好,人类的未来是怎样的?'],
    "stream": False,
    "temperature":0.7,
    "top_p":1,
    "persence_penalty": 0
	"frequency_penalty":0
	}

response = requests.post(
    "https://mapi.szsuanli.com/v1/chat/completions",
    headers=headers,
    json=payload,
    timeout=60
	)

print(response.status_code)
print(json.dumps(response.json(), ensure_ascii=False, indent=2))

3.4 curl请求

bash
curl -N -X POST https://mapi.szsuanli.com/v1/chat/completions \
-H "Authorization: <API_KEY>" \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-max",
    "messages": [{"role":"user","content":'你好,人类的未来是怎样的?'}],
    "stream": False,
    "temperature": 0.7,
    "top_p": 1,
	"persence_penalty": 0,
    "frequency_penalty": 0
	}'

3.5请求响应示例:(非流模式)

json
{
  "id": "chatcmpl-dc1e7fef9aabad35edb366b76b7483f6",
  "object": "chat.completion",
  "created": 1777015250,
  "model": "MiniMax-M2.5",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "\n\n以下是一些常用的夸赞人的成语:**形容外表/气质:希望这些成语对你有帮助!如果你需要特定场景使用的成语,随时告诉我。",
        "refusal": null,
        "annotations": null,
        "audio": null,
        "function_call": null,
        "tool_calls": [],
        "reasoning": "用户想要一些夸赞人的成语。我需要提供一些常用且积极的夸赞成语。\n",
        "reasoning_content": "用户想要一些夸赞人的成语。我需要提供一些常用且积极的夸赞成语。\n"
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null,
      "token_ids": null
    }
  ],
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "prompt_tokens": 46,
    "total_tokens": 274,
    "completion_tokens": 228,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null,
  "prompt_token_ids": null,
  "kv_transfer_params": null
}

✅ 说明

这是模型返回的响应数据,包含:

字段含义
id消息唯一标识
object对象类型(chat.completion)
created创建时间戳
model使用的模型(MiniMax-M2.5)
choices[].message.contentAI 返回的回复内容
usagetoken 使用量统计

4. 原生Claude格式,API 端点调用模型API 服务

模型详情页提供该模型 API 服务调用地址,复制地址,即可开始 API 服务调用。

以下是代码示例:

请求地址: https://mapi.szsuanli.com/v1/messages

4.1 Header 参数:

在 Header 添加参数 Authorization , 其值为在服务模型-令牌管理(API-KEY)中获得 {'Authorization': '5****6-00f2-***6-****-3a****2d-****'}

4.2 body 参数:


📌 参数详解

1. model - 模型名称
  • 含义:指定使用的大语言模型
  • 示例"moonshotai/kimi-k2.5"
  • 作用:不同的模型能力、速度、价格不同

你提供的这段代码是一个典型的 大语言模型(LLM)API 请求体(request body),用于向模型(这里是 Claude 3 Opus)发送对话请求。下面我逐项解释每个参数的含义:


2. "messages":消息列表
  • 含义:表示对话上下文,是一个数组,包含多轮对话历史。
  • 结构
    json
    {
      "role": "user",
      "content": "string"
    }
  • 字段说明
    • role(角色):
      • "user":用户输入
      • "assistant":模型之前的回复(用于多轮对话)
      • "system"Claude 不支持 system 角色(与 OpenAI 不同)!若需系统提示,应放在第一条 user 消息中,或使用 system 参数(见下文补充)。
    • content(内容):
      • 可以是纯文本(如 "你好"
      • 也可以是多模态内容(如文本 + 图片),但需用特定格式(Claude 支持图像输入)

注意:你这里只有一条用户消息,模型会基于这条消息生成回复。


3. "max_tokens": 1
  • 含义:限制模型最多生成多少个 token
  • 说明
    • 1 表示模型最多只输出 1 个 token(比如一个词、一个标点)。
    • 这通常用于测试控制输出长度(如生成摘要、分类标签)。
    • 如果设为 0 或省略,模型会使用默认最大长度(Claude 3 Opus 最多支持 4096 输出 tokens)。
  • 单位
    • token 不是“字”,英文中一个 token ≈ 一个词,中文中一个 token ≈ 1~2 个字。
    • 例如:"你好" ≈ 2 tokens,"Hello world" ≈ 2 tokens。

⚠️ 补充说明(Claude 特有)

  • ✅ 这是 Claude 推荐的系统提示方式。
  • ❌ 不要写成:{"role": "system", "content": "..."}(Claude 会报错)。

✅ 完整建议请求体

json
{
  "model": "claude-3-opus-20240229",
  "system": "你是一个有帮助且准确的AI助手。",
  "messages": [
    {"role": "user", "content": "请解释什么是量子计算?"}
  ],
  "max_tokens": 1024
}

📌 总结

参数作用注意事项
model指定模型使用官方模型 ID
messages对话历史Claude 不支持 role: "system"
max_tokens限制生成长度设为 1 仅用于特殊场景

4.3代码示例(python)

python
import requests
import json

headers = {
    "Authorization": "<API_KEY>",
    "Content-Type": "application/json",
	}

payload = {
    "model": "kimi-k2.5",
    "messages": ["role":"user","content":'你好,人类的未来是怎样的?'],
	"max_tokens":1024
	}

response = requests.post(
    "https://mapi.szsuanli.com/v1/messages",
    headers=headers,
    json=payload,
    timeout=60
	)

print(response.status_code)
print(json.dumps(response.json(), ensure_ascii=False, indent=2))

4.4 curl请求

bash
curl -N -X POST https://mapi.szsuanli.com/v1/messages \
-H "Authorization: <API_KEY>" \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-max",
    "messages": [{"role":"user","content":'你好,人类的未来是怎样的?'}],
    "max_tokens": 1024
	}'

4.5请求响应示例:

json
{
  "id": "chatcmpl-6b676b7453104560b126cc17c22c609d",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "你好。这是一个既令人兴奋又充满敬畏的问题。坦白说,**没有人能够确切预言人类的未来**,因为未来是由无数个当下的选择编织而成的。但我们可以基于现有的趋势,描绘几种可能的路径和关键变量:\n\n## 1. 技术奇点与智能革命\n未来20-50年,我们可能会面临**人工智能的深刻重构**:\n- **工作与社会**:大规模自动化可能终结\"劳动换取生存\"的模式,迫使我们重新定义\"价值\"\"意义\"。Universal"
    }
  ],
  "stop_reason": "max_tokens",
  "model": "moonshotai/kimi-k2.5",
  "usage": {
    "input_tokens": 14,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 308,
    "claude_cache_creation_5_m_tokens": 0,
    "claude_cache_creation_1_h_tokens": 0
  }
}

✅ 总结:各字段作用速查表

字段作用
id请求唯一ID,用于追踪
type响应类型(message/tool_use等)
role消息角色(assistant/user)
content生成内容(支持多块、多模态)
stop_reason停止原因(判断是否被截断)
model实际调用的模型名称
usagetoken 消耗统计(计费依据)

如果你需要避免截断,建议在请求中设置:

json
{
  "max_tokens": 1024  // 或更大,根据需求
}

苏州算力科技有限公司版权所有