AI新闻

及时了解最新的人工智能新闻和行业发展动态

产品

Manus发布Browser Operator扩展:将任意浏览器升级为AI智能浏览器,提升工作效率

Manus公司推出了一款名为Manus Browser Operator的Chrome扩展程序,旨在将任何浏览器转变为具备AI能力的智能浏览器。该扩展能够自动化复杂的浏览器操作,并支持安全访问受保护的网站和系统,如研究平台和CRM工具。其核心功能包括安全的本地访问与会话复用,避免额外的登录验证和验证码,并能长期保持会话活跃。典型应用场景涵盖在数据库中查找资料、在CRM系统执行任务以及在付费平台提取数据。该扩展目前处于Beta测试阶段,逐步向Pro、Plus、Team高级用户开放,支持Chrome和Edge浏览器,旨在大幅提升日常工作效率。

Xiaohu.AI 日报
技术

Google发布Antigravity平台:AI智能体主导软件开发,深度集成Gemini 3模型

Google正式推出Google Antigravity平台,这是一个面向“AI智能体主导开发”的全新系统。它不再是传统IDE,而是具备自治能力的智能体协作平台,使AI能够独立规划、执行和验证完整的软件开发任务。Antigravity深度集成Gemini 3模型,是Google在“智能体式编码”方向的关键落地产品,旨在解决传统AI辅助工具的局限性,实现AI跨环境工作、规划复杂任务、自动执行操作并自行检查结果,从而重新定义AI时代的开发方式。

Xiaohu.AI 日报
行业新闻

谷歌Vids视频编辑平台AI功能全面免费开放:含AI配音、智能剪辑与图像编辑

谷歌宣布其视频编辑平台Vids的多项AI功能现已向所有拥有Gmail账号的用户免费开放。此前,这些功能仅限付费用户使用。新开放的功能包括AI语音配音、自动去除冗余口语(转录修剪)以及AI图像编辑。转录修剪功能可自动识别并删除视频中的“嗯”、“啊”等冗余口语和长时间静默,显著提升视频质量。AI语音配音允许用户通过文本脚本生成专业配音,并提供七种声音选择。AI图像编辑工具则能帮助用户轻松修改视频图片,如去除背景、按描述编辑或将静态照片转为动态视频。谷歌希望通过此举,让更多用户轻松制作高质量视频内容。

AI新闻资讯 - AI Base
产品

Quora Poe应用推出AI群聊功能,支持200人协作与多模态交互

Quora近日为其AI平台Poe推出了创新性的群聊功能,允许最多200名用户在单一对话中与不同的AI模型和机器人进行协作。该功能支持文本、图像、视频和音频生成等多种形式,旨在变革AI交互方式,为用户带来全新的互动体验。用户可以利用此功能规划旅行、创作Mood Board或参与智力游戏。Poe的群聊功能还具备实时同步聊天记录的特性,方便用户在不同设备间无缝切换。Quora表示,该功能已开发六个月,未来将根据用户反馈持续优化,并鼓励用户创建和分享自定义机器人以探索更多应用场景。

AI新闻资讯 - AI Base
行业新闻

Google AI开发者宣布:立即开始使用Gemini 3进行开发

Google AI开发者账号于2025年11月19日发布消息,鼓励开发者“立即开始使用Gemini 3进行开发”。此消息表明Gemini 3已可供开发者使用,预示着新的开发工具和可能性。该推文获得了少量转发和点赞,并有超过4000次浏览。

Google AI Developers(@googleaidevs) - Google AI Developers (@googleaidevs)
技术

Google推出Generative UI:AI从“语言输出”迈向“交互体验生成”新范式

Google Research宣布推出Generative UI(生成式界面)技术,使AI模型能根据用户提示即时生成完整的可视化、交互式用户界面,如网页、工具、游戏和应用程序。这项技术已集成至Gemini App的“动态视图”和Google Search的AI Mode中,标志着Google将生成式AI从单纯的语言输出扩展到交互体验生成。Generative UI旨在解决传统AI线性文本输出在呈现复杂知识和交互任务时的局限性,通过AI系统即时设计并实现交互式界面。其核心机制包括工具访问、系统级指令集和输出后处理,确保AI能生成可运行、结构清晰且安全的界面。该技术有望推动人机交互范式转型,使未来的界面根据用户需求由AI即时生成。

Xiaohu.AI 日报
行业新闻

Google 发布 Gemini 3:AI推理、多模态融合与智能体行为实现质的飞跃

Google 正式发布 Gemini 3,官方定义其在更高层次的推理、多模态融合与智能体行为上实现了质的飞跃。Gemini 3 具备理解复杂场景、跨模态分析与自主执行任务的综合能力。其核心改进包括推理深度与问题分解能力,在博士级考试中表现出色;多模态理解能力显著提升,能处理图像、视频、音频与代码的融合任务;并引入了真正的“自主执行与验证”机制,通过 Google Antigravity 平台实现AI自动规划、编写代码和验证结果。此外,Gemini 3 还具备超长上下文理解能力和系统性思维,可用于学习、构建和规划等三大应用场景。

Xiaohu.AI 日报
行业新闻

马斯克xAI发布Grok 4.1:幻觉率显著降低,暂无API访问

埃隆·马斯克的AI初创公司xAI近日推出了其最新大型语言模型Grok 4.1。该模型已在Grok.com、社交网络X以及iOS和Android移动应用上线,面向消费者开放。Grok 4.1在架构和可用性方面进行了重大增强,包括更快的推理速度、更高的情商和显著降低的幻觉率。根据公开基准测试,Grok 4.1表现优于Anthropic、OpenAI和谷歌(Gemini 2.5 Pro之前版本)的竞争模型。然而,值得注意的是,Grok 4.1目前尚未通过xAI的公共API提供给企业开发者,限制了其在需要后端集成的企业工作流中的应用。

VentureBeat
行业新闻

谷歌发布Gemini 3:宣称在数学、科学、多模态及智能体AI基准测试中领先

在经历一个多月的传闻和猜测后,谷歌于今日正式发布了其最新专有前沿模型家族Gemini 3。这是自2023年Gemini系列首次亮相以来,谷歌最全面的AI发布。Gemini 3作为完整的模型组合推出,包括旗舰模型Gemini 3 Pro、增强推理模式Gemini 3 Deep Think、支持视觉布局和动态视图的生成接口模型,以及用于多步任务执行的Gemini Agent。独立AI基准测试机构Artificial Analysis已将Gemini 3 Pro评为全球“AI新领导者”,得分73,使谷歌从之前的第九位跃升至首位。LMArena也报告Gemini 3 Pro在文本推理、视觉、编码和网页开发等所有主要评估轨道上均排名世界第一。

VentureBeat
行业新闻

ElevenLabs推出“Image & Video平台”:图像、视频、音频、音乐一站式AI生成,重塑内容创作效率

多模态AI公司ElevenLabs正式上线“Image & Video平台”,将图像生成、视频生成、声音合成、音乐创作和音效设计整合于一体。该平台旨在帮助创作者和营销人员告别多平台切换,实现从剧本到成品商业视频的一站式制作。新平台打通了视觉与音频能力,用户可直接在同一界面完成画面生成、视频制作、旁白添加、背景音乐和环境音效叠加,官方宣称最快几分钟即可产出可投放的营销视频。平台集成了Google Veo、OpenAI Sora、Kling等顶级多模态模型,并针对商业应用进行了优化,支持多种视频比例、内置商用安全素材库及多语种旁白替换功能,大幅提升AI内容生产效率。

AI新闻资讯 - AI Base
技术

谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升

谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。

AI新闻资讯 - AI Base
产品

ElevenLabs推出Image & Video(Beta):一站式AI视听内容创作平台,整合顶尖多模态模型

ElevenLabs正式推出Image & Video(Beta)平台,旨在为创作者和营销人员提供一个集图像、视频、声音、音乐、音效生成于一体的全功能AI内容创作解决方案。该平台整合了Veo、Sora、Kling等多个顶尖多模态生成模型,用户可在同一平台内完成视觉内容创建、声音合成、旁白叠加、配乐编辑,并支持唇形同步、超分辨率增强和时间轴调节等功能,最终输出可用于商业与创意的视频内容。其目标是打造一个统一的创意平台,提升内容创作效率和质量。

Xiaohu.AI 日报
产品

Poe AI群聊功能上线:支持200人协作与多模型混搭,革新AI互动体验

知名AI平台Poe近日推出创新的“群聊”功能,将多模型AI与多人实时互动深度融合。该功能允许最多200名用户加入群聊,并与超过200种AI模型(包括文本、图像、视频、音频及自定义bot)共同进行协作和头脑风暴。用户可在同一聊天室中灵活调用如GPT-5.1、Claude4.5、Gemini2.5、Sora2和Veo3.1等顶级模型。群聊支持桌面端与移动端跨设备同步,确保协作不中断。Poe群聊适用于旅行规划、创意风暴、问答游戏等多样场景,旨在提升团队协作效率和用户体验,被视为AI民主化的重要一步。

AI新闻资讯 - AI Base
技术

xAI发布Grok 4.1:情感智能与人格一致性显著提升,LMArena榜单居首

xAI正式发布Grok 4.1,旨在打造更自然、可信的对话伙伴,而非单纯的答题机器。新版本在创造力、情感智能、人格一致性和协作性四大维度实现质变,尤其强调理解细微意图和连贯的人格表现。Grok 4.1引入高阶推理模型作为奖励模型,实现AI训练AI,并首次提出“人格一致性”优化目标。性能评估显示,Grok 4.1在LMArena通用能力榜单中位居榜首,情感智能、创意写作表现优异,并显著降低了幻觉发生率。

Xiaohu.AI 日报
产品

Qwen-Edit-2509多角度光照LoRA发布,提升图像编辑能力

Qwen团队(大雄)发布了Qwen-Edit-2509多角度光照LoRA模型。该模型旨在增强图像编辑功能,特别是处理多角度光照效果。用户可通过Hugging Face平台下载此LoRA模型,以应用于相关图像生成和编辑任务。此次发布进一步丰富了Qwen系列模型的应用场景。

Twitter @Qwen - Qwen
技术

埃隆·马斯克暗示Grok 4展现“涌现智能”,成功优化爱迪生灯泡设计

埃隆·马斯克在社交媒体上发布消息,称“这只是Grok 4”。此前,Brian Roemmele分享了Grok分析1890年托马斯·爱迪生灯泡专利,并成功确定了更优灯丝设计并点亮灯泡的案例。Roemmele强调,这种“涌现智能”在其他AI模型中尚未发现,并认为其预示着不仅能改变教育,还能让机器人进行建造。

twitter-Elon Musk
技术

DeepMind推出SIMA 2:Gemini赋能,实现虚拟3D世界中的具身推理与自我学习

DeepMind发布了第二代SIMA(Scalable Instructable Multiworld Agent)——SIMA 2,该智能体在Gemini大模型的加持下实现了显著升级。与第一代SIMA仅能执行指令不同,SIMA 2现在能够推理用户目标、解释其计划和思考过程、学习新的行为方式,并在多个虚拟世界中泛化经验。它通过屏幕级观察感知环境,不直接访问游戏引擎数据,从而增强了通用性。SIMA 2的训练结合了人类演示和AI自监督,展现出跨游戏泛化能力,甚至能在从未见过的游戏中完成任务。此外,它能理解多模态指令,并在Genie 3生成的虚拟世界中行动,甚至通过自我提升机制持续进化,标志着向具身通用智能迈出了重要一步。

Xiaohu.AI 日报
行业新闻

沙特Humain发布AI操作系统“Humain One”:自然语言交互重塑企业计算体验

沙特阿拉伯AI初创公司Humain在第九届未来投资倡议会议上正式推出AI操作系统“Humain One”。该系统旨在取代传统图标式操作系统,允许用户通过自然语言命令与计算机互动,提升企业生产力和创造力。Humain首席执行官塔里克・阿敏表示,Humain One将成为理解用户目标、预见需求并自主执行任务的AI合作伙伴。此举正值沙特加速推动AI发展,致力于在全球市场中占据领先地位。Humain由沙特主权财富基金于今年5月设立,目标是成为“全球AI强国”。

AI新闻资讯 - AI Base
行业新闻

AI Agent聚合平台MuleRun 2.0上线一月用户破50万,美国用户占比居首

AI Agent聚合平台MuleRun发布2.0版本后,仅一个月内全球注册用户突破50万,其中美国用户占比最高。该平台首创“Agent团队”模式,允许用户选择职业身份并自由组合多个垂直Agent,以协作方式完成电商运营、数据分析、内容创作等复杂任务。MuleRun已接入数百个应用,覆盖商品图生成、异常检测、短视频制作等场景,并支持Python/SQL代码追溯,宣称“零幻觉风险”。平台计划下月推出订阅付费与企业私有化部署方案,旨在降低普通用户调用AI能力的门槛。

AI新闻资讯 - AI Base
产品

谷歌Gemini Veo 3.1发布:多图参考一键生成8秒1080p视频,人物场景风格融合

谷歌今日向Gemini Pro/Ultra订阅用户推出Veo 3.1视频模型,新增“Ingredients to Video”模式。该模式允许用户同时上传三张参考图,分别提取人物、场景和风格特征,并将其融合生成一段8秒的1080p视频。生成内容自带SynthID隐形水印,并支持跨帧角色一致性与光影连贯。用户可通过网页或移动端输入文本提示后一键生成,并可控制首尾帧及进行视频延伸。谷歌表示,多图参考功能已全面开放,生成配额与现有订阅额度一致,暂无额外付费方案。

AI新闻资讯 - AI Base
行业新闻

阿里“千问”APP公测,基于Qwen3模型免费入局C端市场,全面对标ChatGPT

11月17日,阿里巴巴正式宣布“千问”项目,并上线“千问”APP公测版,全力进军AI to C市场。该APP基于全球性能领先的开源模型Qwen3,凭借免费策略及与阿里生态的结合,旨在与ChatGPT展开全面竞争。阿里核心管理层将此视为“AI时代的未来之战”,并计划近期推出国际版。阿里此前已投入3800亿元用于AI基础设施建设。Qwen系列模型已成为全球性能最强、应用最广泛的开源大模型,全球下载量突破6亿次。阿里认为,大模型已进入“辅助人”的Agentic AI时代,入局C端市场时机成熟。千问APP目标是打造“会聊天能办事的个人AI助手”和未来的AI生活入口,未来将整合地图、外卖、购物等多种生活场景。

AI新闻资讯 - AI Base
产品

小米开源7B多模态大模型MiMo-VL,赋能智能管家Miloco自动调节家居

小米今日在Hugging Face和GitHub同步发布了7B参数的多模态大模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”,并推出了基于该模型的智能管家“Xiaomi Miloco”。Miloco系统能够通过米家摄像头实时识别用户活动(如游戏、健身、阅读)和手势,自动联动灯光、空调、音乐等智能家居设备,并兼容Home Assistant协议。该模型采用非商用开源许可,用户可在具备NVIDIA GPU和Docker环境的Windows或Linux主机上一键部署。小米已公开模型权重与推理代码,但保留知识产权,禁止商业用途。

AI新闻资讯 - AI Base
行业新闻

谷歌Gemini 3.0模型年底发布:代码与多模态能力重大突破,剑指AI王座

谷歌CEO桑达尔·皮查伊确认,Gemini 3.0大模型将于2025年底前正式发布。该模型预计在代码生成、多模态创作与推理能力上实现重大突破,将深度集成升级版图像生成引擎Nano Banana,并全面优化代码生成能力。尽管Gemini应用已拥有6.5亿月活用户,但与ChatGPT的8亿周活用户仍有差距。谷歌计划通过Gemini 3.0与Android 16、Pixel设备、Workspace及Google Cloud的深度集成,构建“消费端+企业端+基础设施”三位一体的AI生态闭环,旨在扭转市场印象并争夺AI时代主导权。

AI新闻资讯 - AI Base
产品

谷歌Gemini更新:支持多张参考图像引导AI视频生成,提升用户控制力

谷歌近日更新了Gemini应用,引入了全新的AI视频生成控制方式。用户现在可以在单个视频提示中上传多张参考图像,系统将根据这些图像和文本生成视频及音频,从而更直接地掌控最终视频的外观和声音。此功能此前已在谷歌的扩展视频AI平台Flow中测试。此外,Veo3.1版本相比Veo3.0在纹理真实感、输入保真度和音频质量方面均有显著提升。此次更新旨在提升AI工具的灵活性和可定制性,满足创作者多样化的需求。

AI新闻资讯 - AI Base
技术

优化AI提示词:如何让AI更有效地为高中生解释复杂论文

一条关于优化AI提示词的推文指出,当用户希望AI以通俗易懂的方式解释复杂内容时,直接说明目标受众(如“高中生”)比暗示自身理解能力不足的表达更有效。原推文作者宝玉分享了“请帮我向高中生通俗易懂地解释这篇论文”这一提示词,并强调其效果良好。评论者也指出,这种提示词适用于解释任何新领域研究。

twitter-宝玉
研究

重磅研究揭示:短视频正悄然改变人类大脑与认知,影响专注力、记忆及心理健康

澳大利亚格里菲斯大学一项涵盖71项研究、近10万名参与者的重磅研究发现,TikTok、抖音、Instagram等短视频平台正在悄然改变人类大脑。研究指出,短视频使用越多,整体认知水平越差,专注能力、自我调节能力和记忆能力均显著下降。此外,短视频还会通过多巴胺奖励系统过度激活、情绪依赖和社交比较等机制,对心理健康产生负面影响,导致焦虑、孤独感上升,并破坏睡眠机制。

twitter-小互
研究

格里菲斯大学重磅研究:短视频正改变大脑认知与心理健康,影响注意力与情绪调节

澳大利亚格里菲斯大学心理学系发布一项大规模系统综述与元分析研究,整合71项、近10万参与者数据,深入探讨短视频使用与认知功能、心理健康之间的关系。研究发现,短视频的高速视觉刺激、无限滑动和算法推荐等“行为成瘾架构”可能正在改变人类的注意力机制、认知控制与情绪调节能力。研究指出,高频短视频刺激使大脑习惯快节奏内容,导致面对慢节奏任务时易分心,并可能缩短注意力持续时间、降低耐心和思维深度。该研究发表于全球心理学顶刊《Psychological Bulletin》,为理解短视频对大脑的影响提供了全面且系统的科学证据。

Xiaohu.AI 日报
行业新闻

Kimi K2 Thinking模型在Vending-Bench基准测试中表现卓越,成为最佳开源模型

Kimi.ai宣布,其Kimi K2 Thinking模型在Vending-Bench基准测试中表现出色,现已成为该测试中表现最佳的开源模型。Andon Labs重新运行测试后发现,使用Moonshot官方API显著提升了Kimi K2在工具调用方面的性能,使其在平均净值方面超越其他开源模型。Kimi.ai鼓励用户查看Kimi K2 Thinking的基准测试最佳实践并获取API密钥。

twitter-Kimi.ai
行业新闻

AI初创Gamma:50人团队服务5000万用户的产品与增长秘诀揭示

AI初创公司Gamma创始人Grant Lee与Lenny Rachitsky的深度对话总结了其以50人团队服务5000万用户并实现盈利的8条产品和增长经验。这些经验包括优先打磨最初30秒的产品体验、专注单一核心价值、等待自然口碑增长超过50%再投放广告、与数百位微型网红合作、亲自指导早期创作者、极其缓慢地招聘顶尖人才、通过快速原型测试验证想法,以及选择愿意投入10年的问题。其中,Gamma曾因增长停滞而投入三个月时间完善产品的前30秒体验。

twitter-宝玉
行业新闻

Yann LeCun与Google DeepMind专家Adam Brown对话,探讨AI发展与大语言模型争议

知名AI科学家Yann LeCun宣布,他将与Google DeepMind的Adam Brown博士在Pioneer Works进行一场对话,由Janna Levin主持。此次对话的背景是《华尔街日报》的一篇报道,该报道指出Yann LeCun虽然发明了现代AI的许多基础组件,但他认为该领域的大多数人已被大语言模型的“诱惑之声”误导。

twitter-Yann LeCun
产品

埃隆·马斯克推荐Grok的“夏娃”语音:赞其“非常优美”

埃隆·马斯克近日在社交媒体上发文,强烈推荐用户尝试Grok AI的“夏娃”(Eve)语音,并称赞其“非常优美”。此推荐也得到了其他用户的积极响应,有用户表示“夏娃”确实是最好的语音之一,并已成为他们使用Grok时的首选。这一互动凸显了Grok在语音技术方面的用户体验和吸引力。

twitter-Elon Musk
产品

Grok语音模式更新:轻松切换多种声音风格与语速

埃隆·马斯克在X平台宣布,Grok的语音模式现已支持用户轻松更改语音风格和语速。用户可以通过设置图标选择包括Ara(欢快女声)、Eve(舒缓女声)、Leo(英伦男声)、Rex(平静男声)、Sal(柔和男声)和Gork(慵懒男声)在内的多种预设声音。此外,用户还可以自由调整所选声音的语速,以满足个性化需求。

twitter-Elon Musk
行业新闻

AI泡沫还是智能时代来临?投资者需区分自动化与真正智能

当前许多投资者将AI自动化与AI智能混淆,引发对“AI泡沫”的担忧。然而,历史表明我们正进入一场不可逆转的AI革命。YC支持的初创公司已证明,小团队通过利用真正的智能模型可以超越巨头,例如OpenAI的ChatGPT超越了拥有庞大数据、人才和基础设施的谷歌。这是因为智能的扩展是非线性的,而自动化会达到瓶颈。自动化关乎任务执行,而智能则涉及推理、适应和自我改进模型。未来的飞跃将来自结合量子计算的AI系统,量子霸权将解锁能够实时模拟市场、生物学、物理学和全球系统的超级计算机。这并非泡沫,而是从基于规则的自动化向涌现智能的转变,AI将理解、决策、优化和进化。对风险投资家而言,关键在于是否为智能而非自动化成为主要经济引擎的世界做好准备。

newest submissions : artificial
产品

NotebookLM实现里程碑更新:正式支持图像作为数据源,赋能学生与学习者

NotebookLM近日迎来一项里程碑式更新,正式支持用户将图像作为数据源进行检索。这意味着课堂板书、教科书内容、表格以及街头随拍照片等各类图像,均可导入NotebookLM并进行检索。此项功能预计将对学生群体和需要听课记录的人士带来极大的便利和实用价值。

歸藏(guizang.ai)(@op7418) - 歸藏(guizang.ai) (@op7418)
技术

谷歌推出新型AI训练方法SRL:赋能小型模型处理复杂多步推理任务

谷歌云和加州大学洛杉矶分校(UCLA)的研究人员提出了一种名为“监督强化学习”(SRL)的新型强化学习框架。该框架通过将问题解决重构为一系列逻辑“动作”,在训练过程中提供丰富的学习信号,显著提升了语言模型学习复杂多步推理任务的能力。实验表明,SRL不仅在数学推理基准测试中表现出色,还能有效泛化到代理软件工程任务。与现有依赖最终答案正确性的强化学习方法(RLVR)相比,SRL能让更小、成本更低的模型达到更高的推理水平,解决了传统方法在处理极具挑战性问题时因稀疏奖励和计算成本导致的学习瓶颈。

VentureBeat
技术

NVIDIA Earth-2与CorrDiff赋能生成式AI超分辨率,加速天气预测50倍

NVIDIA宣布,其生成式AI超分辨率技术正显著加速天气预测。结合NVIDIA Earth-2平台和CorrDiff模型,该技术实现了50倍的速度提升,为低计算需求、可扩展的AI模型提供了解决方案。这意味着更快的模型训练和实时预测已成为现实。

Twitter @NVIDIA AI Developer - NVIDIA AI Developer
研究

新型基础AI模型结合超级计算机,赋能罕见癌症早期精准检测

一项新研究表明,一个新型基础AI模型能够适应并识别罕见癌症的早期迹象。医学影像产生大量难以完全分析和利用的3D数据,尤其在罕见癌症检测方面。荷兰埃因霍温理工大学(TU/e)团队利用计算能力是前身百倍的超级计算机SPIKE-1,通过超过25万份CT扫描创建了一个多功能AI模型。该模型旨在实现更快、更准确的癌症检测,并通过开源工具支持全球合作,显著推动罕见癌症研究和全球医疗创新。

Twitter @NVIDIA AI Developer - NVIDIA AI Developer
行业新闻

Meta探讨开源硬件与AI如何助力环境可持续发展及2025 OCP峰会亮点

Meta Tech播客最新一集深入探讨了开源硬件及其对环境的积极影响。节目中,Pascal Hartig与Dharmesh和Lisa讨论了开源硬件的方方面面,并介绍了Meta在2025年开放计算项目(OCP)峰会上的重要发布,其中包括利用AI理解Scope 3排放的新开放方法。听众将了解OCP的历史及其发展,以及AI和开源硬件如何帮助Meta在2030年实现净零排放目标,包括AI在数据中心建设中开发新型混凝土混合物方面的应用。

Engineering at Meta
行业新闻

OpenAI驳斥法院命令:纽约时报可查阅2000万用户完整聊天记录

OpenAI对一项法院命令表示强烈不满,该命令允许《纽约时报》查阅2000万条完整的用户聊天记录。此举引发了对用户隐私和数据安全的担忧,OpenAI方面认为这一裁决存在严重问题。目前,关于此案件的更多细节以及OpenAI将如何应对尚不明确。

newest submissions : artificial
技术

Databricks推出“ai_parse_document”工具,旨在解决企业AI中PDF解析难题

Databricks本周详细介绍了其“ai_parse_document”技术,该技术已集成到Databricks的Agent Bricks平台中。此工具旨在解决企业AI应用中的关键瓶颈,即大约80%的企业知识仍被困在PDF、报告和图表中,现有AI系统难以准确处理和理解。Databricks首席研究科学家Erich Elsen指出,尽管人们普遍认为PDF解析已解决,但实际上,由于企业PDF的复杂性,如混合内容、不规则布局等,现有工具难以准确捕获信息,导致下游AI应用不可靠。新工具旨在取代多服务管道,以单一功能解决这一挑战。

VentureBeat
产品

TrendRadar:AI驱动的多平台热点聚合与舆情监控分析工具

TrendRadar是一款基于AI的舆情监控分析工具,旨在帮助用户告别信息过载,理解新闻资讯热点。它聚合了抖音、知乎、B站、华尔街见闻、财联社等35个平台的热点信息,并利用MCP(多维度内容处理)AI分析工具进行智能筛选、自动推送和深度对话分析。该工具提供趋势追踪、情感分析、相似检索等13种AI分析功能,支持企业微信、飞书、钉钉、Telegram、邮件、ntfy等多种推送方式,且部署简便,无需编程,支持Docker部署。

GitHub Trending
产品

ChatGPT商业版和企业版现已支持应用部署与测试

OpenAI宣布,ChatGPT商业版和企业版用户现在可以通过开发者模式,在其工作区测试和部署应用程序。这一更新为企业用户提供了更大的灵活性和定制能力,以满足其特定的业务需求。

OpenAI Developers(@OpenAIDevs) - OpenAI Developers (@OpenAIDevs)
技术

Tweeks (YC W25) 发布Chrome扩展:LLM自动生成Userscript,引发隐私、法律与开源争议

YC W25项目Tweeks推出一款Chrome扩展,旨在利用大型语言模型(LLM)自动生成userscript,帮助用户“净化”网页。该扩展在生成脚本时会抓取当前页面并调用LLM,生成的脚本作为静态代码在本地运行。然而,Tweeks引发了关于技术可行性、用户隐私(页面内容发送至LLM)、法律风险(平台禁令或诉讼)以及是否应开源和如何变现的广泛讨论。创始人表示已与LLM供应商签订数据处理协议,并对完全开源持谨慎态度。社区将其与现有开源工具对比,并建议未来可将推理迁移至本地小模型以降低成本和隐私风险。

News Hacker
产品

Perplexity Pro及Max订阅用户现可使用GPT-5.1模型

Perplexity官方宣布,其Pro和Max订阅用户现已能够使用GPT-5.1模型。这一更新通过Perplexity的平台提供,具体细节和功能未在原文中详细说明,但表明了对订阅用户服务能力的提升。

Perplexity(@perplexity_ai) - Perplexity (@perplexity_ai)
行业新闻

OpenAI与微软联手州执法机构成立AI安全工作组

根据最新提交的人工智能新闻,OpenAI和微软正与州执法机构合作,共同组建一个专注于人工智能安全的工作组。此举旨在加强AI技术的安全性,并可能涉及AI相关法律法规的制定与执行。

newest submissions : artificial
产品

GPT-5.1 API现已发布:速度更快、可控性更强、编码能力提升

OpenAI宣布GPT-5.1现已通过API提供,带来显著升级。新版本在速度、可控性和编码能力方面均有提升,并集成了实用的新工具。对于开发者而言,如果构建的应用或智能体对智能、速度和成本有较高要求,GPT-5.1将是一个重要的升级。

OpenAI Developers(@OpenAIDevs) - OpenAI Developers (@OpenAIDevs)
产品

OpenAI发布GPT-5.1开发者版本:Hacker News热议

根据Hacker News上的信息,OpenAI已发布了面向开发者的GPT-5.1版本。该消息在Hacker News上获得了34个点赞和1条评论,表明了开发者社区对这一新版本的关注。原始文章链接指向OpenAI官网,但具体内容未在新闻中提供。

Hacker News: Front Page - tedsanders
行业新闻

Cloudflare CEO指控谷歌滥用搜索垄断地位以喂养其AI

Cloudflare首席执行官发表言论,指责谷歌正在滥用其在搜索领域的垄断地位,以支持和发展其人工智能技术。这一指控引发了对科技巨头市场行为和AI发展伦理的关注。由于原始新闻内容非常简短,具体细节和证据并未提供,但这一声明本身就具有一定的新闻价值,暗示了科技行业内部对竞争和数据使用的潜在争议。

newest submissions : artificial
产品

Qwen DeepResearch 2511重磅上线:深度研究能力全面升级,支持双模式与文件上传

Qwen DeepResearch 2511已正式发布,带来重大升级,旨在使研究工作更深入、更快速、更智能。此次更新引入了双模式选择(普通模式和高级模式),支持文件和图片上传进行AI分析,显著提升了搜索效率和深度,并提供了更精确的报告格式控制,同时通过全新的解耦架构优化了用户体验。

Qwen(@Alibaba_Qwen) - Qwen (@Alibaba_Qwen)
研究

Google DeepMind测试SIMA 2与Genie 3:AI在模拟3D世界中展现卓越适应性

Google DeepMind近日宣布,他们成功测试了SIMA 2在由其世界模型Genie 3创建的模拟3D世界中的能力。测试结果显示,SIMA 2展现出前所未有的适应性,能够有效导航其周围环境,并朝着既定目标迈出有意义的步伐。这一进展标志着AI在理解和操作复杂虚拟环境方面取得了重要突破。

Google DeepMind(@GoogleDeepMind) - Google DeepMind (@GoogleDeepMind)