提供音频或视频链接,自动识别语音为文字。支持 mp3、mp4、wav 等常见格式。
| 参数名 | 类型 | 必选 | 描述 |
|---|---|---|---|
| api_key | string | 是 | 用户 API Key |
| audio_url | string | 是 | 音频或视频文件的直接下载链接 |
| duration | number | 否 | 媒体时长(毫秒),用于计费参考 |
| use_own_key | boolean | 否 | 是否使用自己的阿里云 API Key |
本接口支持两种计费模式:
use_own_key=true,每次调用固定扣除 1 次用量。👉 用量管理:您可以前往 API 插件中心 查看剩余用量及进行充值。
| 参数名 | 类型 | 描述 |
|---|---|---|
| code | number | 状态码,0 表示成功 |
| success | boolean | 请求是否成功 |
| msg | string | 提示信息(包含本次消耗及剩余用量) |
| data | object | 核心响应数据 |
| └─ text | string | 识别出的完整文本内容 |
| └─ usage | object | 用量统计信息 |
| └─ seconds | number | 识别音频的时长(秒) |
| └─ duration | number | 音频总时长(毫秒) |
| └─ request_id | string | 请求唯一标识 ID |
| └─ fullResponse | object | 底层原始响应详情 |
| └─ transcription_data | object | 转写核心数据(包含详细分句信息) |
| └─ transcripts | array | 转写结果列表 |
| └─ sentences | array | 分句详情列表 |
| └─ text | string | 分句文本内容 |
| └─ begin_time | number | 分句开始时间(毫秒) |
| └─ end_time | number | 分句结束时间(毫秒) |
| └─ emotion | string | 情感分析标签(如 happy, neutral, sad 等) |
| 错误码 | 描述 | 解决方案 |
|---|---|---|
| 401 | Unauthorized | API Key 无效或过期,请检查 Key 是否正确 |
| 400 | Bad Request | 请求参数错误 |
| 403 | Forbidden | 余额不足或权限受限 |
| 500 | Internal Server Error | 服务器内部错误,请联系技术支持 |