挪威国家图书馆利用华为2PB闪存打造挪威语主权AI模型

挪威国家图书馆正在利用2PB华为OceanStor Dorado闪存存储开发专门理解挪威语的大语言模型（LLM）。该项目旨在构建“主权AI”，以弥补商业模型在本地语言、历史和文化理解上的不足。凭借自2005年以来积累的20PB数字化文化遗产数据，以及与报社达成的版权内容训练协议，挪威正通过高性能基础设施确保其文化在AI时代的独立性。

核心要点

主权AI战略：挪威文化部授权国家图书馆开发挪威语大模型，以保护国家文化、历史和语言的数字化主权。
高性能硬件支撑：项目采用了2PB的华为OceanStor Dorado全闪存存储系统，用于构建AI训练数据流水线。
独特数据优势：图书馆拥有20PB的唯一数字化数据，并获准使用受版权保护的报纸内容进行模型训练，这是私营公司无法比拟的优势。
数字化规模：自2005年起，图书馆已积累了涵盖书籍、报纸、网页及影音的庞大馆藏，总存储规模（含备份）达60PB。

详细分析

主权AI的必要性与文化保护

在华为2026年巴黎ID论坛上，挪威国家图书馆（Nasjonlbiblioteket）IT平台负责人Marius Husnes强调了开发“主权AI”的紧迫性。他指出，目前主流的商业大语言模型供应商并未针对挪威语进行深度开发。如果一个国家缺乏基于本国语言训练的主权模型，将面临文化失语的风险。全球化训练的英语模型往往无法准确理解特定国家的历史脉络、新闻背景和文化细微差别。因此，利用国家图书馆的权威馆藏构建本地化AI，成为维护挪威文化竞争力的关键举措。

庞大的数字资产与法律授权

挪威国家图书馆在数据资源方面具有天然优势。作为法定存款机构，它有权收集并保存挪威所有的出版物和广播内容。自2005年启动数字化进程以来，该馆已积累了20PB的独特数据，涵盖了书籍、报纸、网页、音频和影像。通过遵循3-2-1备份策略（3份副本、2种介质、1处异地存放），其总数据量达到了60PB。更具竞争力的是，图书馆与挪威报社达成的协议允许其使用受版权保护的内容进行LLM训练，这种合规且高质量的数据源是任何私营AI企业都难以获取的。

华为闪存技术驱动AI训练流水线

为了处理海量的数字化馆藏并支持复杂的模型训练，图书馆引入了2PB的华为OceanStor Dorado全闪存存储。在AI训练流水线中，原始的文本、图像和影音资料需要经过大规模的OCR（光学字符识别）扫描和元数据生成。高性能的全闪存存储能够提供极高的吞吐量和极低的延迟，确保数据在从归档库（磁盘与磁带系统）提取后，能够快速转化为可供模型学习的结构化信息。这一基础设施的建设，标志着文化遗产保护与前沿AI技术的深度融合。

行业影响

挪威的这一举措预示了全球“主权AI”建设的新趋势。对于非英语母语国家而言，依赖通用商业模型可能导致文化边缘化。通过将国家级图书馆的数字化馆藏与高性能计算/存储基础设施相结合，政府机构能够构建出比商业模型更具文化准确性的垂直领域模型。此外，华为高性能存储在欧洲国家级基础设施项目中的应用，也展示了硬件技术在支撑全球AI多元化发展中的核心作用。

常见问题

为什么挪威需要开发自己的大语言模型？

因为现有的商业大模型主要基于英语数据训练，缺乏对挪威本地语言、历史、新闻和文化的深度理解。开发主权AI可以确保挪威的文化遗产在人工智能时代得到准确的表达和传承。

挪威国家图书馆在数据方面有哪些独特优势？

图书馆拥有挪威最大的数字馆藏（20PB唯一数据），且拥有法律授权收集所有出版物。最重要的是，他们获得了使用受版权保护的报纸内容进行AI训练的特殊许可，这是私营公司无法获得的资源。

华为的存储设备在项目中起到了什么作用？

图书馆使用了2PB的华为OceanStor Dorado全闪存存储来构建AI训练数据流水线。这种高性能存储能够高效处理大规模OCR扫描、元数据生成，并为LLM训练提供高速的数据读取能力，是整个AI基础设施的关键组成部分。

挪威国家图书馆采用华为2PB闪存存储，打造挪威语主权大语言模型