Databricks推出“ai_parse_document”工具,旨在解决企业AI中PDF解析难题
Databricks本周详细介绍了其“ai_parse_document”技术,该技术已集成到Databricks的Agent Bricks平台中。此工具旨在解决企业AI应用中的关键瓶颈,即大约80%的企业知识仍被困在PDF、报告和图表中,现有AI系统难以准确处理和理解。Databricks首席研究科学家Erich Elsen指出,尽管人们普遍认为PDF解析已解决,但实际上,由于企业PDF的复杂性,如混合内容、不规则布局等,现有工具难以准确捕获信息,导致下游AI应用不可靠。新工具旨在取代多服务管道,以单一功能解决这一挑战。
企业数据中有大量信息被困在PDF文档中。尽管生成式AI工具能够摄取和分析PDF,但其准确性、时间和成本一直不尽理想。Databricks的新技术有望改变这一现状。
该公司本周详细介绍了其“ai_parse_document”技术,该技术现已集成到Databricks的Agent Bricks平台中。这项技术旨在解决企业AI应用中的一个关键瓶颈:据报告,大约80%的企业知识仍然被锁定在PDF、报告和图表中,而AI系统难以准确处理和理解这些内容。
Databricks首席研究科学家Erich Elsen在接受VentureBeat采访时表示:“人们普遍认为PDF解析是一个已解决的问题,但实际上并非如此。挑战不仅仅在于文档是非结构化的;还在于企业PDF本身就非常复杂。它们混合了数字原生内容、扫描页面和物理文档的照片,以及表格、图表和不规则布局,大多数现有工具都无法准确捕获这些信息。”
文档解析背后隐藏的复杂性
尽管光学字符识别(OCR)技术已经存在了几十年,但Elsen认为,从真实的、企业级的文档中提取可用、结构化的数据仍然是一个尚未解决的根本问题。现有工具常常会遗漏或错误读取关键元素,例如带有合并单元格的表格、图表标题以及文档元素之间的空间关系,这使得下游的AI应用、检索增强生成(RAG)系统或商业智能仪表板变得不可靠。
典型的企业解决方案是堆叠多个不完善的工具:一个服务用于布局检测,另一个用于OCR,第三个用于表格提取,以及额外的API用于图表分析。这种方法需要数月时间的定制数据工程和持续的维护,因为文档格式会不断演变。