xiaomimimo-tts使用小米 MiMo TTS (mimo-v2-tts) 生成语音。 支持多种音色、风格控制、情感标签和方言。 需要 MIMO_API_KEY。
Install via ClawdBot CLI:
clawdbot install jazzqi/xiaomimimo-ttsGrade Fair — based on market validation, documentation quality, package completeness, maintenance status, and authenticity signals.
Sends data to undocumented external endpoint (potential exfiltration)
POST → https://api.xiaomimimo.com/v1/chat/completionsCalls external URL not in known-safe list
https://platform.xiaomimimo.com/AI Analysis
The skill's external API calls (xiaomimimo.com) are consistent with its stated purpose of text-to-speech generation and require a documented API key. No evidence of credential harvesting, hidden instructions, or obfuscation was found in the provided definition.
Audited Apr 16, 2026 · audit v1.0
Generated May 6, 2026
将文字内容转换为自然语音,支持情感标签和方言,用于快速生成有声书、播客节目。创作者可以通过智能模式或手动指定风格来自动适配内容情感,提高生产效率。该场景适合数字出版商、独立创作者和文化传播机构。
在客服机器人或虚拟助手中集成TTS,根据对话语境自动调整语音情感和语气。例如在安抚客户时使用温柔语气,在紧急通知时使用紧张语气。适用于电商、金融、医疗等行业的客服系统。
用于制作语言学习材料或教育内容,支持方言和语速控制,可模拟真实对话场景。例如朗读诗词时选择温柔舒缓风格,或用东北话教学增加趣味性。适用于在线教育平台和语言培训机构。
为智能音箱、智能家居设备提供语音输出,支持根据用户指令或场景切换语音风格。例如在道晚安时使用温柔风格,在报警时使用紧张急促风格。适用于智能硬件制造商和智慧家庭方案提供商。
用于视频配音、虚拟角色对话、游戏NPC语音等娱乐内容创作。支持多种效果如悄悄话、夹子音、唱歌,以及方言,为角色赋予个性。适合游戏开发公司、短视频创作者和虚拟偶像运营方。
向开发者或企业提供TTS API接口,按照调用的字符数或音频时长收费。支持基础版和智能版,智能版可收取更高费用。适合需要低成本集成语音能力的中小企业和个人开发者。
推出在线语音生成平台,提供可视化界面和批量处理功能,按月或按年收费。可以按不同层级提供功能差异,如基础版仅支持手动标签,高级版开放智能模式和多语音选择。适合内容创作团队和中小企业。
为大型企业或特定行业提供定制化的TTS解决方案,包括私有化部署、专属音色训练、行业术语优化和深度集成服务。例如为银行定制严肃正式的通知语音,或为教育机构定制教学专用音色。
💬 Integration Tip
初学者建议从基础脚本 ./scripts/mimo-tts.sh 开始,直接传入文本和输出文件即可快速体验。当需要智能风格选择时,可切换到智能脚本 ./scripts/mimo-tts-smart.sh 实现自动匹配。
Scored May 6, 2026
Local speech-to-text with the Whisper CLI (no API key).
ElevenLabs text-to-speech with mac-style say UX.
Transcribe audio via OpenAI Audio Transcriptions API (Whisper).
Text-to-speech conversion using node-edge-tts npm package for generating audio from text. Supports multiple voices, languages, speed adjustment, pitch control, and subtitle generation. Use when: (1) User requests audio/voice output with the "tts" trigger or keyword. (2) Content needs to be spoken rather than read (multitasking, accessibility, driving, cooking). (3) User wants a specific voice, speed, pitch, or format for TTS output.
Local text-to-speech via sherpa-onnx (offline, no cloud)
Start voice calls via the OpenClaw voice-call plugin.