FUTO发布百万级滑动输入数据集:开源MIT协议助力输入法模型进化
FUTO宣布正式发布包含100万条QWERTY英语滑动输入轨迹的大型数据集。该项目始于2024年8月的众包采集,通过移动端网页收集了大量基于维基百科内容的滑动输入数据。经过严格的质量过滤,该数据集已于2025年3月以MIT协议在HuggingFace平台开源。此举旨在为滑动输入模型的训练与性能评估提供高质量的数据支持,推动移动端交互技术的开源生态发展。
核心要点
- 大规模数据开源:FUTO发布了包含100万条高质量英语滑动输入轨迹的数据集。
- 众包采集模式:数据通过移动端网页由志愿者协作完成,主要内容源自维基百科句子。
- MIT授权协议:数据集已于2025年3月在HuggingFace上线,允许开发者自由使用。
- 模型训练基石:该数据集已被用于训练FUTO自有的滑动输入模型,并作为评估不同输入系统的基准。
详细分析
数据采集与处理流程
FUTO于2024年8月启动了这项名为“swipe.futo.org”的数据采集计划。为了获取真实的移动端输入行为,该项目邀请志愿者通过手机访问特定网页,在获得用户知情同意后,引导其根据指令滑动输入指定的句子。这些句子主要提取自维基百科,确保了语言的多样性与规范性。在完成初步采集后,FUTO团队对超过100万条原始轨迹进行了精细化处理,剔除了少量低质量或无效的滑动记录,最终形成了这一高质量的开源库。
技术应用与评估价值
在2025年3月正式发布之前,FUTO已经深度利用这批数据进行了内部技术的迭代。该数据集不仅被用于训练其全新的滑动输入模型,还成为了评估各种滑动输入系统准确性与流畅度的核心工具。通过将数据托管在HuggingFace并采用MIT协议,FUTO为全球开发者提供了一个标准化的测试集,解决了长期以来滑动输入领域缺乏大规模、公开标注轨迹数据的痛点。
行业影响
滑动输入(Swipe Typing)是现代智能手机交互的关键组成部分,但其背后的模型训练往往依赖于科技巨头的私有数据集。FUTO此次开源百万级数据集,显著降低了开源社区开发高性能输入法的门槛。这不仅有助于提升非商业输入法产品的用户体验,也为研究人类手势输入模式、优化移动端人机交互界面提供了宝贵的学术资源。随着该数据集的普及,预计将涌现出更多基于开源架构的高效输入解决方案。
常见问题
该数据集主要包含哪些内容?
该数据集包含约100万条在QWERTY布局下完成的英语滑动输入轨迹,对应的文本内容主要来自维基百科的句子。
开发者可以如何使用该数据集?
由于该数据集采用MIT协议发布,开发者可以自由地将其用于商业或非商业项目的模型训练、算法评估以及学术研究。目前该数据集已在HuggingFace平台开放下载。
FUTO是如何保证数据质量的?
在采集过程中,系统会提供明确的指令引导用户。采集完成后,FUTO通过过滤机制剔除了少量不符合标准的低质量滑动轨迹,以确保数据集对模型训练的有效性。


