【共绩 AI 小课堂】Class 5 Transformer 架构深度解析:从《Attention Is All You Need》论文到现代大模型
Transformer 是什么? Transformer 是 2017 年 Google 提出的革命性深度学习架构,它彻底改变了自然语言处理(NLP)领域的游戏规则。今天我们将深入探讨这篇被誉为"改变 AI 历史"的论文——《Attention Is All You Need》,理解 GPT、BER...
探索前沿技术,分享实践经验,追踪行业动态
Transformer 是什么? Transformer 是 2017 年 Google 提出的革命性深度学习架构,它彻底改变了自然语言处理(NLP)领域的游戏规则。今天我们将深入探讨这篇被誉为"改变 AI 历史"的论文——《Attention Is All You Need》,理解 GPT、BER...
时间理解才是图像编辑的新上限 图像生成的“智商门槛”正在悄然提高,而 NVIDIA 刚发布的 ChronoEdit-14B 正好证明了这一趋势。这个模型不是传统意义上的图像编辑器,而是一个能理解“动作”并进行时序推理的世界模拟工具。它不仅能改图,还懂得改“怎么动”。 ChronoEdit 的最大亮...
Emu3.5 是北京智源研究院(BAAI)推出的新一代多模态大模型,在架构层面做出了一个激进决策——不再区分视觉和语言的输入输出,而是通过统一的 token 序列进行处理。这种做法听起来简单,但一旦扩展到超过 10 万亿 token 规模的跨模态预训练,带来的语义一致性和生成流畅性,已经明显超过依赖...
NVIDIA 推出全新的 Nemotron Nano v2 12B VL 模型为多模态 AI 领域注入强劲动力。这款前沿模型由 NVIDIA 精心打造,旨在提供卓越的多图像推理、视频理解以及强大的文档智能处理能力,即日起便可用于商业部署。 核心亮点 Nemotron Nano v2 12B VL 最...
Embedding 模型是 AI 绘图中一个非常实用的工具,它能够将复杂的提示词效果压缩成一个小小的模型文件,让你轻松实现特定的艺术风格、人物特征或画面效果。这些模型通常只有几 KB 大小,但效果却非常强大,是提升图像生成质量的重要工具。 ComfyUI 作为目前最强大的 Stable Diffus...
在 AI 图像生成过程中,我们经常因为设备性能限制无法一次性生成大尺寸图片,通常需要先生成小尺寸图像再进行放大。ComfyUI 提供了多种图片放大方法,每种方法都有其独特的特点和适用场景。 本文将详细介绍 ComfyUI 中三种主要的图片放大方法:像素重新采样、SD 二次采样放大和使用放大模型放大图...
扩图(Outpainting)是 AI 绘图中一项非常实用的技术,它能够让你在原始图片的边缘区域继续生成内容,从而扩展图片的尺寸和视野范围。无论是补充画面缺失的部分、调整图片的宽高比例,还是创造更大场景的视觉效果,扩图都能帮你实现。 ComfyUI 作为目前最强大的 Stable Diffusion...
局部重绘是 AI 绘图中最实用的功能之一,它让你能够精确地修改图像的特定部分,而不影响其他区域。无论是清除画面中的物体、修改人物表情、调整服饰颜色,还是替换背景元素,局部重绘都能帮你实现。 ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在局部重绘方面提供了灵活的控制...
AI 前沿观察发现 Google 推出的 ShieldGemma 2 模型为图像内容安全领域带来了一次重要升级。这款基于 Gemma 3 打造的 40 亿参数模型,专为图像安全分类设计,旨在帮助开发者和研究人员有效规避有害内容风险,这不仅是对现有 AI 安全模型的补充,更是一种前瞻性的内容防护策略...
Llama 4 多模态大模型震撼发布 Meta 推出 Llama 4 系列开启 AI 新纪元。 Meta 近日正式发布其新一代旗舰模型 Llama 4 系列 包含 Llama 4 Scout 和 Llama 4 Maverick 两款模型。这标志着 Llama 生态系统迈入一个全新时代 其核心创新...
AI 前沿动态聚焦 OpenBMB 最新力作 MiniCPM-o 2.6 模型以仅 80 亿参数的体量,在多项基准测试中展现出与 GPT-4o 202405 GPT-4V Claude 3.5 Sonnet Gemini 1.5 Pro 等专有大型模型相媲美甚至超越的性能,尤其令人瞩目的是其在手机端...
deepseek-ai 再次展现其在 AI 前沿的探索精神,最新推出的 Janus-Pro 模型,为多模态 AI 领域带来了创新的统一框架。这款模型不仅能理解图像内容,还能生成图像,其独特之处在于视觉编码的巧妙解耦设计,打破了传统多模态模型在理解与生成任务中的潜在冲突。 Janus-Pro 的发布预...
NVIDIA Isaac GR00T N1 是世界上首个面向通用类人机器人推理和技能的开放基础模型。 这款由 NVIDIA 推出的模型,不仅标志着机器人 AI 领域的一次重大飞跃,更预示着机器人将从传统的“任务专家”走向具备泛化能力的“环境通才”。 模型亮点与架构解析 GR00T N1 的核心亮点在...
提示词是 AI 绘图的核心,一个好的提示词能够让你的创意完美呈现,而糟糕的提示词则可能让你失望而归。ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在提示词处理方面有着独特的语法规则和功能特性。 今天我们就来详细讲解 ComfyUI 中的提示词基础语法,从最基础的书写...
ComfyUI 的强大之处在于它支持各种类型的模型,每种模型都有其独特的作用和应用场景。但对于新手来说,面对五花八门的模型类型和复杂的安装过程,往往感到无从下手。 今天我们就来详细讲解 ComfyUI 中各类模型的安装方法,从基础的 Stable Diffusion 检查点模型,到进阶的 LoRA、...
微软(Microsoft)最新推出的 Kosmos-2.5 多模态模型,正重新定义我们对图像中文本的处理方式。它不仅是简单的光学字符识别(OCR),更是一个能够“阅读”并理解文本密集图像的“识字”模型。这标志着文档智能处理领域的一次重大飞跃,让机器不再只看到文字,更能理解文字的结构与含义。 核心亮点...
M87 Labs 带来了其前沿的视觉语言模型 Moondream 3 (Preview) 这一模型以其独特的专家混合 MoE 架构 脱颖而出。它在保持极致效率的同时 提供了业界领先的视觉推理能力 为 AI 爱好者和开发者打开了视觉 AI 应用的新篇章。 Moondream 3 MoE 架构揭秘 Mo...
Apriel-1.5-15b-Thinker 多模态推理模型由 ServiceNow-AI 团队发布 带来了 AI 训练领域的新鲜视角。这款模型的核心理念是“中间训练即所需”Mid training is all you need. 团队通过深度且广泛的持续预训练 Continual Pre-tra...
