Gemini 是谷歌推出的新一代大语言模型,最大亮点就是强大的多模态能力,文字、图片、视频都能轻松拿捏
官网:https://gemini.google.com
优点:多模态能力一绝,搞多媒体内容创作选它准没错,长文本输出质量超高;有谷歌的技术背书,实力毋庸置疑。
缺点:目前还在测试阶段,部分功能不太稳定;访问需要梯子。
是否需要梯子:需要梯子。
Gemini 是谷歌推出的新一代大语言模型,最大亮点就是强大的多模态能力,文字、图片、视频都能轻松拿捏
官网:https://gemini.google.com
优点:多模态能力一绝,搞多媒体内容创作选它准没错,长文本输出质量超高;有谷歌的技术背书,实力毋庸置疑。
缺点:目前还在测试阶段,部分功能不太稳定;访问需要梯子。
是否需要梯子:需要梯子。

GPT Image 2
简介 GPT Image 2 是基于 OpenAI 最新图像模型的下一代 AI 图片生成器,具备 99% 文字渲染准确率、最高 2K 分辨率和多风格支持。与以往生成乱码或拼写错误文字的 AI 图片生成器不同,GPT Image 2 能以近乎...
Scribe v2 Realtime
ElevenLabs发布的最新语音转文本模型:Scribe v2 Realtime,150毫秒转录90+种语言

Omnilingual ASR
Omnilingual ASR,打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
Grok imagine
xAI于2025年10月30日宣布,其Grok Imagine工具iOS版即将迎来重大更新,新增视频生成功能,并支持提示重混,旨在进一步强化移动端的AI创作能力。此次升级基于Aurora/Grok核心模型优化,标志着xAI在多模态媒体生成领...

SoulX-Podcast
SoulX”AI 模型简介 “SoulX”模型是社交平台Soul 日前宣布推出的一款AI大模型,目前该模型已经在 App 的“AI 苟蛋”聊天机器人中应用,号称能够让相关机器人呈现“拟人化、多模态、时间感知”等能力。 据介绍,SoulX的优...

LTX Video
综合介绍 LTX-Video是一个开源的视频生成模型,它基于先进的扩散模型(DiT)架构,可以根据用户输入的文字描述或图片,快速生成一段高清视频。这个工具的核心优势在于其生成速度和视频质量。例如,它的一些优化版本可以在高端图形处理器(如H1...

kimi-k2
Kimi K2 is an advanced AI model by MoonshotAI, featuring 128K context length, superior performance in reasoning, coding,...

Sora 2 AI
# Sora 2 AI视频生成器 ## 概述 Sora 2 是 OpenAI 推出的革命性文本到视频 AI 模型,能够将简单的文本提示和参考图像转化为惊艳的、具有前所未有真实感的电影级视频。Sora 2 利用突破性的扩散变换器架构和先进的时...
微信扫码分享


评论 ( 0 )