FUTO开源百万级滑动输入数据集：助力移动端输入法模型训练

FUTO宣布正式发布包含100万条QWERTY英语滑动输入轨迹的大型数据集。该项目始于2024年8月的众包采集，通过移动端网页收集了大量基于维基百科内容的滑动输入数据。经过严格的质量过滤，该数据集已于2025年3月以MIT协议在HuggingFace平台开源。此举旨在为滑动输入模型的训练与性能评估提供高质量的数据支持，推动移动端交互技术的开源生态发展。

核心要点

大规模数据开源：FUTO发布了包含100万条高质量英语滑动输入轨迹的数据集。
众包采集模式：数据通过移动端网页由志愿者协作完成，主要内容源自维基百科句子。
MIT授权协议：数据集已于2025年3月在HuggingFace上线，允许开发者自由使用。
模型训练基石：该数据集已被用于训练FUTO自有的滑动输入模型，并作为评估不同输入系统的基准。

详细分析

数据采集与处理流程

FUTO于2024年8月启动了这项名为“swipe.futo.org”的数据采集计划。为了获取真实的移动端输入行为，该项目邀请志愿者通过手机访问特定网页，在获得用户知情同意后，引导其根据指令滑动输入指定的句子。这些句子主要提取自维基百科，确保了语言的多样性与规范性。在完成初步采集后，FUTO团队对超过100万条原始轨迹进行了精细化处理，剔除了少量低质量或无效的滑动记录，最终形成了这一高质量的开源库。

技术应用与评估价值

在2025年3月正式发布之前，FUTO已经深度利用这批数据进行了内部技术的迭代。该数据集不仅被用于训练其全新的滑动输入模型，还成为了评估各种滑动输入系统准确性与流畅度的核心工具。通过将数据托管在HuggingFace并采用MIT协议，FUTO为全球开发者提供了一个标准化的测试集，解决了长期以来滑动输入领域缺乏大规模、公开标注轨迹数据的痛点。

行业影响

滑动输入（Swipe Typing）是现代智能手机交互的关键组成部分，但其背后的模型训练往往依赖于科技巨头的私有数据集。FUTO此次开源百万级数据集，显著降低了开源社区开发高性能输入法的门槛。这不仅有助于提升非商业输入法产品的用户体验，也为研究人类手势输入模式、优化移动端人机交互界面提供了宝贵的学术资源。随着该数据集的普及，预计将涌现出更多基于开源架构的高效输入解决方案。

常见问题

该数据集主要包含哪些内容？

该数据集包含约100万条在QWERTY布局下完成的英语滑动输入轨迹，对应的文本内容主要来自维基百科的句子。

开发者可以如何使用该数据集？

由于该数据集采用MIT协议发布，开发者可以自由地将其用于商业或非商业项目的模型训练、算法评估以及学术研究。目前该数据集已在HuggingFace平台开放下载。

FUTO是如何保证数据质量的？

在采集过程中，系统会提供明确的指令引导用户。采集完成后，FUTO通过过滤机制剔除了少量不符合标准的低质量滑动轨迹，以确保数据集对模型训练的有效性。

FUTO发布百万级滑动输入数据集：开源MIT协议助力输入法模型进化