Scribe v2 Realtime
ElevenLabs发布的最新语音转文本模型:Scribe v2 Realtime,150毫秒转录90+种语言

Omnilingual ASR
Omnilingual ASR,打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源

SoulX-Podcast
SoulX”AI 模型简介 “SoulX”模型是社交平台Soul 日前宣布推出的一款AI大模型,目前该模型已经在 App 的“AI 苟蛋”聊天机器人中应用,号称能够让相关机器人呈现“拟人化、多模态、时间感知”等能力。 据介绍,SoulX的优...

VibeVoice TTS
微软新开源了这个 VibeVoice TTS模型很强 - 支持最多生成 90 分钟时长 - 最多4 个人的对谈语音,以往模型只能生成两个 - 支持中文,而且中文效果不错 - 支持生成带背景音乐的播客音频

IndexTTS
在人工智能飞速发展的当下,文本转语音(TTS)技术早已不是新鲜事儿,但能做到“影视级”水准的却屈指可数。近日,一款名为IndexTTS2的文本转语音大模型即将发布,凭借其零样本语音克隆、情绪控制、精准时长调节等黑科技,瞬间在业界掀起热议。今...

IndexTTS2
IndexTTS2:用极致表现力颠覆听觉体验
Elevenlabs
ElevenLabs 是国外一个火爆的AI文字转语音平台,目前已完成测试阶段并推出了正式版。借助先进的多语言人工智能技术,ElevenLabs 可以自动识别包括中文在内的28种语言,并将其转换为逼真的语音。免费版提供每月10000个字符的转...
OpenMusic
OpenMusic是什么 OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技术的高质量文生音乐模型。基于先进的AI算法,根据文本描述生成高质量的音乐作品。模...

Gemini
Gemini 是谷歌推出的新一代大语言模型,最大亮点就是强大的多模态能力,文字、图片、视频都能轻松拿捏 官网:https://gemini.google.com 优点:多模态能力一绝,搞多媒体内容创作选它准没错,长文本输出质量超高;有谷歌的...