Let's GitHub

资源分类

图片视频音频效率开发编程AI文档资源

热门标签

综合文本转语音人声分离提取语音转文本语音识别
VoiceStar

VoiceStar-极低延迟、高自然度的实时语音合成引擎,专为交互场景设计

音频

VoiceStar是一个专注于实时交互场景的开源语音合成(TTS)引擎,以“掐着秒表生成”为核心设计理念。它采用端到端神经网络架构,在毫秒级延迟下仍能输出高度拟人化、富有情感韵律的语音。VoiceStar深度优化了中英文及多语种混合场景的合成效果,支持实时流式输出、语气控制、说话人自适应等特性。与传统TTS引擎不同,VoiceStar在低延迟与高自然度之间实现了突破性平衡,特别适合语音助手、实时配音、直播互动、无障碍播报等对响应速度要求严苛的应用场景。

Apache-2.0语音合成文本转语音实时语音
FFmpeg

FFmpeg-完整的跨平台音视频录制、转换与流处理解决方案

音频

FFmpeg是音视频处理领域的事实标准与核心工具集。它包含了一系列用于处理多媒体内容的库和命令行工具,支持几乎所有已知的音频和视频格式的读取、转换、编辑与流传输。其核心库被全球大量软件项目广泛依赖,是一个功能极其强大的工业级解决方案。

LGPL-2.1及部分GPL综合
Coqui TTS

Coqui TTS-一款高质量、开源的深度学习文本转语音工具包

音频

Coqui TTS是一个基于深度学习的开源文本转语音(TTS)工具包,专注于生成高质量、自然度接近人声的语音。它提供了大量预训练模型,支持多语言,并允许用户使用自己的数据集训练独特的语音合成模型。项目集成了最新的研究模型,是学术研究和商业应用的热门选择。

MPL-2.0 license文本转语音
Spleeter

Spleeter-由Deezer开发的用于音源分离的深度学习工具

音频

Spleeter是由Deezer开发并开源的音源分离工具。它基于TensorFlow,使用预先训练好的深度学习模型,能够快速将音乐曲目分离为不同音轨,例如:人声、鼓点、贝斯、钢琴及其他乐器。该工具因其简单易用和良好的分离效果,在音乐分析和处理领域被广泛使用。

MIT人声分离
Whisper

Whisper-由OpenAI开发的高鲁棒性通用语音识别系统

音频

Whisper是由OpenAI开发并开源的通用的语音识别(ASR)系统。它通过在大规模、多样化的音频数据集上进行训练,具备了强大的多语言识别能力、卓越的抗噪性以及出色的口音和术语处理能力。该系统支持包括转录、翻译等多种任务,因其高准确率和高可靠性,已成为目前最主流的开源语音识别解决方案之一。

MIT语音转文本语音识别
第 1 / 1 页,共 5 篇文章

推荐项目

思源宋体 (Source Han Serif)

与思源黑体相对应的开源宋体家族,适合印刷与正式文本。

libvips

超高性能的开源图片处理库

OpenClaw

开源自主AI智能体,通过自然语言指令直接控制计算机执行跨应用操作任务

MarkItDown

微软开源多格式文档转Markdown工具,适配LLM/RAG场景的结构化转换

Spleeter

由Deezer开发的用于音源分离的深度学习工具

Jellyfin

自由的个人媒体服务器软件

VanBlog

一款简洁优雅、支持一键部署的开源一体化博客系统

WordReview

侧重“反馈”与“记忆曲线”的本地化背单词系统

《Effective Java》笔记与源码

经典书籍《Effective Java》第三版的随书官方示例代码

相关项目

Spleeter

由Deezer开发的用于音源分离的深度学习工具

Coqui TTS

一款高质量、开源的深度学习文本转语音工具包

FFmpeg

完整的跨平台音视频录制、转换与流处理解决方案

VoiceStar

极低延迟、高自然度的实时语音合成引擎,专为交互场景设计

Whisper

由OpenAI开发的高鲁棒性通用语音识别系统

© 2026 lightweb. 保留所有权利。