Qwen-Edit-2509多角度光照LoRA发布,提升图像编辑能力
Qwen团队(大雄)发布了Qwen-Edit-2509多角度光照LoRA模型。该模型旨在增强图像编辑功能,特别是处理多角度光照效果。用户可通过Hugging Face平台下载此LoRA模型,以应用于相关图像生成和编辑任务。此次发布进一步丰富了Qwen系列模型的应用场景。
Qwen团队(大雄)发布了Qwen-Edit-2509多角度光照LoRA模型。该模型旨在增强图像编辑功能,特别是处理多角度光照效果。用户可通过Hugging Face平台下载此LoRA模型,以应用于相关图像生成和编辑任务。此次发布进一步丰富了Qwen系列模型的应用场景。
埃隆·马斯克在社交媒体上发布消息,称“这只是Grok 4”。此前,Brian Roemmele分享了Grok分析1890年托马斯·爱迪生灯泡专利,并成功确定了更优灯丝设计并点亮灯泡的案例。Roemmele强调,这种“涌现智能”在其他AI模型中尚未发现,并认为其预示着不仅能改变教育,还能让机器人进行建造。
DeepMind发布了第二代SIMA(Scalable Instructable Multiworld Agent)——SIMA 2,该智能体在Gemini大模型的加持下实现了显著升级。与第一代SIMA仅能执行指令不同,SIMA 2现在能够推理用户目标、解释其计划和思考过程、学习新的行为方式,并在多个虚拟世界中泛化经验。它通过屏幕级观察感知环境,不直接访问游戏引擎数据,从而增强了通用性。SIMA 2的训练结合了人类演示和AI自监督,展现出跨游戏泛化能力,甚至能在从未见过的游戏中完成任务。此外,它能理解多模态指令,并在Genie 3生成的虚拟世界中行动,甚至通过自我提升机制持续进化,标志着向具身通用智能迈出了重要一步。
沙特阿拉伯AI初创公司Humain在第九届未来投资倡议会议上正式推出AI操作系统“Humain One”。该系统旨在取代传统图标式操作系统,允许用户通过自然语言命令与计算机互动,提升企业生产力和创造力。Humain首席执行官塔里克・阿敏表示,Humain One将成为理解用户目标、预见需求并自主执行任务的AI合作伙伴。此举正值沙特加速推动AI发展,致力于在全球市场中占据领先地位。Humain由沙特主权财富基金于今年5月设立,目标是成为“全球AI强国”。
AI Agent聚合平台MuleRun发布2.0版本后,仅一个月内全球注册用户突破50万,其中美国用户占比最高。该平台首创“Agent团队”模式,允许用户选择职业身份并自由组合多个垂直Agent,以协作方式完成电商运营、数据分析、内容创作等复杂任务。MuleRun已接入数百个应用,覆盖商品图生成、异常检测、短视频制作等场景,并支持Python/SQL代码追溯,宣称“零幻觉风险”。平台计划下月推出订阅付费与企业私有化部署方案,旨在降低普通用户调用AI能力的门槛。
谷歌今日向Gemini Pro/Ultra订阅用户推出Veo 3.1视频模型,新增“Ingredients to Video”模式。该模式允许用户同时上传三张参考图,分别提取人物、场景和风格特征,并将其融合生成一段8秒的1080p视频。生成内容自带SynthID隐形水印,并支持跨帧角色一致性与光影连贯。用户可通过网页或移动端输入文本提示后一键生成,并可控制首尾帧及进行视频延伸。谷歌表示,多图参考功能已全面开放,生成配额与现有订阅额度一致,暂无额外付费方案。
11月17日,阿里巴巴正式宣布“千问”项目,并上线“千问”APP公测版,全力进军AI to C市场。该APP基于全球性能领先的开源模型Qwen3,凭借免费策略及与阿里生态的结合,旨在与ChatGPT展开全面竞争。阿里核心管理层将此视为“AI时代的未来之战”,并计划近期推出国际版。阿里此前已投入3800亿元用于AI基础设施建设。Qwen系列模型已成为全球性能最强、应用最广泛的开源大模型,全球下载量突破6亿次。阿里认为,大模型已进入“辅助人”的Agentic AI时代,入局C端市场时机成熟。千问APP目标是打造“会聊天能办事的个人AI助手”和未来的AI生活入口,未来将整合地图、外卖、购物等多种生活场景。
小米今日在Hugging Face和GitHub同步发布了7B参数的多模态大模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”,并推出了基于该模型的智能管家“Xiaomi Miloco”。Miloco系统能够通过米家摄像头实时识别用户活动(如游戏、健身、阅读)和手势,自动联动灯光、空调、音乐等智能家居设备,并兼容Home Assistant协议。该模型采用非商用开源许可,用户可在具备NVIDIA GPU和Docker环境的Windows或Linux主机上一键部署。小米已公开模型权重与推理代码,但保留知识产权,禁止商业用途。
谷歌CEO桑达尔·皮查伊确认,Gemini 3.0大模型将于2025年底前正式发布。该模型预计在代码生成、多模态创作与推理能力上实现重大突破,将深度集成升级版图像生成引擎Nano Banana,并全面优化代码生成能力。尽管Gemini应用已拥有6.5亿月活用户,但与ChatGPT的8亿周活用户仍有差距。谷歌计划通过Gemini 3.0与Android 16、Pixel设备、Workspace及Google Cloud的深度集成,构建“消费端+企业端+基础设施”三位一体的AI生态闭环,旨在扭转市场印象并争夺AI时代主导权。
谷歌近日更新了Gemini应用,引入了全新的AI视频生成控制方式。用户现在可以在单个视频提示中上传多张参考图像,系统将根据这些图像和文本生成视频及音频,从而更直接地掌控最终视频的外观和声音。此功能此前已在谷歌的扩展视频AI平台Flow中测试。此外,Veo3.1版本相比Veo3.0在纹理真实感、输入保真度和音频质量方面均有显著提升。此次更新旨在提升AI工具的灵活性和可定制性,满足创作者多样化的需求。
一条关于优化AI提示词的推文指出,当用户希望AI以通俗易懂的方式解释复杂内容时,直接说明目标受众(如“高中生”)比暗示自身理解能力不足的表达更有效。原推文作者宝玉分享了“请帮我向高中生通俗易懂地解释这篇论文”这一提示词,并强调其效果良好。评论者也指出,这种提示词适用于解释任何新领域研究。
澳大利亚格里菲斯大学一项涵盖71项研究、近10万名参与者的重磅研究发现,TikTok、抖音、Instagram等短视频平台正在悄然改变人类大脑。研究指出,短视频使用越多,整体认知水平越差,专注能力、自我调节能力和记忆能力均显著下降。此外,短视频还会通过多巴胺奖励系统过度激活、情绪依赖和社交比较等机制,对心理健康产生负面影响,导致焦虑、孤独感上升,并破坏睡眠机制。
迈克尔·戴尔(Michael Dell)转发埃隆·马斯克(Elon Musk)的推文表示,Grok 5模型拥有高达6万亿个参数,并且智能密度显著提高。他认为2026年将是激动人心的一年,并感谢了埃隆·马斯克。