
挪威国家图书馆采用华为2PB闪存存储,打造挪威语主权大语言模型
挪威国家图书馆正在利用2PB华为OceanStor Dorado闪存存储开发专门理解挪威语的大语言模型(LLM)。该项目旨在构建“主权AI”,以弥补商业模型在本地语言、历史和文化理解上的不足。凭借自2005年以来积累的20PB数字化文化遗产数据,以及与报社达成的版权内容训练协议,挪威正通过高性能基础设施确保其文化在AI时代的独立性。
核心要点
- 主权AI战略:挪威文化部授权国家图书馆开发挪威语大模型,以保护国家文化、历史和语言的数字化主权。
- 高性能硬件支撑:项目采用了2PB的华为OceanStor Dorado全闪存存储系统,用于构建AI训练数据流水线。
- 独特数据优势:图书馆拥有20PB的唯一数字化数据,并获准使用受版权保护的报纸内容进行模型训练,这是私营公司无法比拟的优势。
- 数字化规模:自2005年起,图书馆已积累了涵盖书籍、报纸、网页及影音的庞大馆藏,总存储规模(含备份)达60PB。
详细分析
主权AI的必要性与文化保护
在华为2026年巴黎ID论坛上,挪威国家图书馆(Nasjonlbiblioteket)IT平台负责人Marius Husnes强调了开发“主权AI”的紧迫性。他指出,目前主流的商业大语言模型供应商并未针对挪威语进行深度开发。如果一个国家缺乏基于本国语言训练的主权模型,将面临文化失语的风险。全球化训练的英语模型往往无法准确理解特定国家的历史脉络、新闻背景和文化细微差别。因此,利用国家图书馆的权威馆藏构建本地化AI,成为维护挪威文化竞争力的关键举措。
庞大的数字资产与法律授权
挪威国家图书馆在数据资源方面具有天然优势。作为法定存款机构,它有权收集并保存挪威所有的出版物和广播内容。自2005年启动数字化进程以来,该馆已积累了20PB的独特数据,涵盖了书籍、报纸、网页、音频和影像。通过遵循3-2-1备份策略(3份副本、2种介质、1处异地存放),其总数据量达到了60PB。更具竞争力的是,图书馆与挪威报社达成的协议允许其使用受版权保护的内容进行LLM训练,这种合规且高质量的数据源是任何私营AI企业都难以获取的。
华为闪存技术驱动AI训练流水线
为了处理海量的数字化馆藏并支持复杂的模型训练,图书馆引入了2PB的华为OceanStor Dorado全闪存存储。在AI训练流水线中,原始的文本、图像和影音资料需要经过大规模的OCR(光学字符识别)扫描和元数据生成。高性能的全闪存存储能够提供极高的吞吐量和极低的延迟,确保数据在从归档库(磁盘与磁带系统)提取后,能够快速转化为可供模型学习的结构化信息。这一基础设施的建设,标志着文化遗产保护与前沿AI技术的深度融合。
行业影响
挪威的这一举措预示了全球“主权AI”建设的新趋势。对于非英语母语国家而言,依赖通用商业模型可能导致文化边缘化。通过将国家级图书馆的数字化馆藏与高性能计算/存储基础设施相结合,政府机构能够构建出比商业模型更具文化准确性的垂直领域模型。此外,华为高性能存储在欧洲国家级基础设施项目中的应用,也展示了硬件技术在支撑全球AI多元化发展中的核心作用。
常见问题
为什么挪威需要开发自己的大语言模型?
因为现有的商业大模型主要基于英语数据训练,缺乏对挪威本地语言、历史、新闻和文化的深度理解。开发主权AI可以确保挪威的文化遗产在人工智能时代得到准确的表达和传承。
挪威国家图书馆在数据方面有哪些独特优势?
图书馆拥有挪威最大的数字馆藏(20PB唯一数据),且拥有法律授权收集所有出版物。最重要的是,他们获得了使用受版权保护的报纸内容进行AI训练的特殊许可,这是私营公司无法获得的资源。
华为的存储设备在项目中起到了什么作用?
图书馆使用了2PB的华为OceanStor Dorado全闪存存储来构建AI训练数据流水线。这种高性能存储能够高效处理大规模OCR扫描、元数据生成,并为LLM训练提供高速的数据读取能力,是整个AI基础设施的关键组成部分。

