Aria 首个开源多模态原生 MoE 模型
Rhymes AI 最新推出了 Aria 模型 它以业界首个开源多模态原生 Mixture-of-Experts MoE 模型的姿态 重新定义了 AI 领域的交互与理解范式。Aria 的核心在于其能够同时处理文本 图像 视频以及代码等多种模态输入 并在这些任务上展现出卓越的性能。 多模态原生性能突...
探索前沿技术,分享实践经验,追踪行业动态
Rhymes AI 最新推出了 Aria 模型 它以业界首个开源多模态原生 Mixture-of-Experts MoE 模型的姿态 重新定义了 AI 领域的交互与理解范式。Aria 的核心在于其能够同时处理文本 图像 视频以及代码等多种模态输入 并在这些任务上展现出卓越的性能。 多模态原生性能突...
如果你只用 ComfyUI 一个工具,这部分可以跳过,但了解自定义模型路径还是挺有用的,能帮你更好地管理文件。下面我们一步步来看怎么让 ComfyUI 和其他 Stable Diffusion WebUI(如 A1111)共享模型资源,或者设置专属的模型存储位置。我们主要针对两个常见版本:Comfy...
Meta Llama 4 Maverick 和 Scout 模型近日在 Hugging Face Hub 上发布 这标志着大型语言模型发展的一个重要飞跃 两款模型均采用原生多模态 MoE 架构 不仅能力强大 而且在长文本处理方面展现了惊人创新 Llama 4 技术亮点 Llama 4 是 Meta...
1. ComfyUI 基本介绍 ComfyUI 是一个基于节点的图形用户界面(GUI),最初专为 Stable Diffusion 设计,但如今支持广泛的 AI 图像生成模型,包括 Stable Diffusion 的各种变体如 SD 1.5 和 SDXL,以及 Flux、自定义微调模型等。它专注...
阿里巴巴 Qwen 团队推出了开创性的 Qwen3-Omni 多模态大模型。这款模型旨在重新定义 AI 与世界的互动方式,它原生支持端到端的多模态处理,能够同时理解和生成文本、图像、音频和视频内容,并以自然的语音和文本形式进行实时流式响应。 架构创新驱动性能飞跃 Qwen3-Omni 并非简单地堆叠...
CohereLabs 近日发布了其旗舰级视觉语言模型 Command A Vision,这是一款拥有开放权重的尖端多模态 AI。该模型在继承 Command A 强大文本能力的基础上,实现了卓越的视觉任务性能,尤其针对企业级应用场景进行了深度优化。 专为企业打造的强大性能 Command A Vi...
近期 Hugging Face 推出了名为 SmolVLM 的 2B 视觉语言模型系列 这标志着 AI 领域在追求模型效率和本地部署方面迈出了重要一步。SmolVLM 以其卓越的内存占用表现 在同类模型中脱颖而出 提供了小巧 快速 且内存高效的解决方案 更关键的是它完全开源。 大规模多模态 AI 模...
腾讯近期正式发布了 HunyuanImage 3.0 这款模型以其 80B 的参数规模和工业级原生多模态架构 成为目前开源生图领域的佼佼者。它不仅免费开放使用 其生成效果和语义理解能力已能对标业界头部闭源模型 为 AI 爱好者和开发者带来了前所未有的创作工具。 原生多模态架构 解锁思考型创作 Hun...
Google 正式推出 Gemma 家族的最新力作 Gemma 3,这标志着开源 AI 领域又一次重要突破。Gemma 3 不仅继承了前代模型的优秀基因,更在多模态理解、多语言支持以及超长上下文处理方面实现了飞跃,为开发者和研究者提供了前所未有的强大工具。 Gemma 3 核心亮点 Gemma 3...
inclusionAI 团队近日发布的 Ming Lite 万能模型,是一款仅需 2.8 亿激活参数的轻量级多模态模型,却实现了前所未有的全模态感知与生成能力,首次在开放领域向 GPT-4o 的多模态支持范围发起挑战,无疑是 AI 社区的一枚重磅炸弹。 轻量级身段的万能选手 我们常常认为,要实现图像...
Gen-Verse 最近推出了一款名叫 MMaDA-8B-Base 的新型多模态扩散基础模型,它不只专注于文本生成图像,更在文本推理和多模态理解上展现出令人惊艳的能力。这不仅仅是功能堆叠,更是一种底层架构上的统一尝试,预示着未来 AI 基础模型可能走向真正的万能之路。 核心技术亮点 MMaDA 之所...
最近,我被 Hugging Face 热门榜上的一篇论文深深吸引,那就是昨天刚刚发布的 OmniHuman-1.5。它不只是生成逼真视频,更是由 OmniHuman Lab 团队让数字人第一次拥有了思考能力,能根据情境做出有意义的动态反应。这和以往那些被动回应输入的系统,有着本质区别。 OmniHu...
朋友们,最近我在 Hugging Face 上发现一个名为 HuMo 的模型,它不只是能生成视频,更专注于创作高质量、可控的人物视频,而且还支持多种输入模式,彻底颠覆了以往我们对 AI 视频生成能力的认知。 核心亮点 HuMo 的超能力 想象一下,用文字描述人物动作,用一张图锁定人物外观,再配上声音...
Unsloth 推出了 Magistral 1.2,这不仅是一个强大的多模态小模型,更代表了本地部署和高效推理的新方向。它凭借 Unsloth Dynamic 2.0 技术实现了卓越的量化性能,让顶级 AI 能力触手可及。 开篇速览 Magistral 1.2 Magistral Small 1.2...
最近,PerceptronAI 带来了他们的首款感知语言模型 Isaac-0.1,这款仅有 25.7 亿参数的开源模型,却宣称能在物理世界交互方面达到甚至超越比它体量大 50 倍的模型,这无疑是 AI 领域的一个重磅发现。 我个人认为,Isaac-0.1 的出现,正颠覆着我们对只有巨型模型才能处理复...
小绩在这里为读者分享如何通过精心设计的提示词,借助 Flux.1-Kreadev生成令人惊叹的艺术作品。以下精选了多种艺术风格的提示词示例,涵盖浪漫主义、复古肖像、超现实主义等,旨在激发灵感。每个示例都包含英文提示词和中文翻译,方便读者理解和使用。文章最后还附上了一些撰写提示词的小技巧,助你打造独一...
赛博朋克是一种融合高科技与低生活的独特美学,充满了霓虹光影、潮湿街头、科技与反乌托邦的碰撞。小绩将为读者介绍如何为 Flux.1-Kreadev编写赛博朋克风格的提示词,打造令人沉浸的视觉场景。通过以下示例,读者可以学习如何用英文和中文描述赛博朋克世界的氛围与细节,同时掌握一些创作提示词的小技巧。...
大家好,我是小绩!今天想和读者分享一些用 Flux.1-Krea 生成美食图片的提示词经验。食物摄影不仅要展现菜品的色香味,还要通过细节、光影和场景氛围勾起人们的食欲。以下是小绩整理的几个提示词示例,包含英文原版和中文翻译,希望能帮大家快速上手,生成令人垂涎的美食图片! 提示词一 text Capt...
