随着对生成式AI的需求不断增长,Databricks正竭尽全力将这项技术置于其数据湖架构的核心位置。
在近日的年度会议上,数据和人工智能公司宣布推出LakehouseIQ,这是一款生成式AI工具,旨在使数据洞察力普惠化。Databricks还宣布了针对Lakehouse的新型AI创新,旨在让客户更轻松地构建和管理自己在数据湖架构上的机器学习模型(LLMs)。
这一举措是在Databricks以13亿美元收购MosaicML之后推出的,而此时Databricks的主要竞争对手Snowflake也在继续推进其自己的生成式AI技术。
LakehouseIQ:一个用于查询数据的AI知识引擎
如今,大多数企业用户都希望分析数据,但由于缺乏技术专长而受阻。对于每一个分析需求,他们必须去找数据科学家和程序员,然后才能找到并查询相关的数据集,这需要时间并增加了已经超负荷工作的团队的工作量。
通过引入LakehouseIQ,Databricks正在解决这个问题,提供了一个生成式AI的“知识引擎”,使组织中的任何人都能够通过简单英语提问来搜索、理解和查询内部企业数据。不需要掌握Python、SQL或数据查询技能。
该解决方案利用模式、文档、查询、流行度等元素,学习企业的独特语言(包括内部行话和数据使用模式),并立即回答用户的查询。这种理解水平使解决方案能够更准确地解释问题的意图,甚至生成额外的见解供用户使用。
此外,由于它与Unity Catalog(Databricks的统一搜索和治理解决方案)完全集成,因此始终遵守内部安全和治理规则。
Databricks的联合创始人兼首席执行官Ali Ghodsi表示:“LakehouseIQ解决了企业在使用AI时面临的两个最大挑战:在遵守合规性的同时向员工提供正确的数据,并在应保护数据时确保数据的私密性。它减轻了时间紧张的工程师的负担,简化了数据管理的任务,并使员工能够充分利用人工智能革命,而不会危及公司的专有信息。”
值得注意的是,Dremio和Kinetica也在探索类似的对话式数据查询能力。而Snowflake本身则收购了Neeva,预计将增强其提供智能和对话式搜索体验的能力,服务于使用其平台存储、分析和共享数据的企业。这家数据云公司还推出了Document AI,这是一种从非结构化文档中提取见解的对话式工具。
Lakehouse AI的新工具
除了LakehouseIQ将生成式AI应用于Databricks平台之外,Lakehouse AI还帮助企业在该平台上为其自己的用例构建生成式AI解决方案。现在,这个数字工具箱正在扩展,涵盖整个人工智能生命周期,包括数据收集和准备、模型开发和LLMOps、模型服务和监控。
Databricks表示,他们正在扩展Lakehouse AI,引入向量嵌入搜索以改进生成式人工智能的响应;在市场上提供了一个经过策划的开源模型集合(包括MosaicML的MPT-7B);LLM优化的模型服务;具备AI网关和提示工具等功能的MLflow 2.5;以及提供对驱动人工智能工作的数据管道端到端可见性的Lakehouse监控功能。
“对于组织来说,我们已经达到了一个拐点:利用人工智能不再是一个理想,而是对组织保持竞争力的必要条件。Databricks致力于在过去十多年中使数据和人工智能民主化,我们将继续创新,使Lakehouse成为构建、拥有和保护生成式人工智能模型的最佳场所。”Ghodsi补充道。
在会议上,Databricks还推出了具有Apache Iceberg和Hudi兼容性以及联邦功能的Delta Lake 3.0,使组织能够创建高度可扩展和高性能的数据网格架构,并实现统一的治理。