大模型更需要大数据,星环科技的跃升之路 快看

2023-06-02 11:12:45   来源:商业新知网

针对 AI 大模型,又一家中国公司果断出手了!

在 5 月 26 日上海举行的“向星力·未来数据技术峰会”( FDTC )上,星环科技创始人、 CEO 孙元浩亲自宣布了业界首创的金融大模型 “无涯” 、大数据分析大模型 SoLar “求索” 等行业大模型的诞生。

“三化”:


(资料图片)

加速数智化转型的必由之路

其实从 2022 年底 ChatGPT 出现至今, AI 应用便开启了新一轮加速。 AI 大模型引发了一场前所未有的“比拼”,尤其是中国厂商争先恐后推出自己的或通用或面向垂直领域的大模型。

对此,中金计算机首席分析师、研究部副总经理于钟海形象地比喻说, 未来的大模型市场会像一个冰激凌蛋筒 ,上面的几个冰激凌球代表面向金融、医疗、教育、政务等几个关键行业领域的垂类大模型。因为这些行业的场景足够大、足够深,能够产生强大的激励,促进初创企业、行业巨头结合自身及行业的 Know-how 开发出垂类大模型。而下面的蛋筒则代表通用的大模型。“或许中国的每个巨头企业都会拥有自己的大模型,但最后所有人经常用的会像中国的公有云一样,最多不超过三个。”于钟海如是说。

从市场和应用的发展趋势看,今天百花齐放的 AI 大模型市场最终将走向收敛,但是由大模型激发的 AI 应用无疑会成燎原之势,无所不及,无处不在。在这样的市场大势下, AI 普惠化将是一个长久的命题。作为 AI 生态中的一份子,无论是 AI 大模型的开发者,还是为大模型落地应用提供支撑的云厂商、大数据厂商等,都必须找准自己的定位。以金字塔为例,最顶端是少数的大模型的开发者和拥有者,中间层数量众多的是为大模型提供各种资源和能力支持的方案和工具厂商及服务商,最下面也是数量最多的则是千行百业使用大模型的用户。中间层的方案和工具厂商及服务商起到的是关键的承上启下的作用,既要为大模型提供足够的算力、数据,又要面向多样化的行业需求,提供场景化的应用方案支持。

星环科技显然是定位于中间层的大数据厂商。一方面,在大模型开发方面,星环科技会“适可而止”,将专注于行业大模型,比如“无涯”“求索”等;另一方面,孙元浩在回答记者提问时也明确表示, 星环科技主要是将大模型作为对现有产品和业务的增强 ,而不是借此开辟新的赛道,比如通过提供多年来持续完善的 LLMOps 工具,帮助客户训练大模型。在引入大模型后,星环科技现有的业务不会有太大变化。

更进一步,星环科技提出了将自身的创新技术与业务场景深度融合,致力于实现数据处理的 “智能化、多模态、平民化” 的“三化”目标。对于星环科技来说,“三化”既是目标,又是赋能工具;对于行业用户来说,“三化”则是 AI 大模型时代企业加速实现数智化转型升级的必由之路。

智能化:

人人都能拥有自己的专属大模型

“无涯”、 SoLar “求索”行业大模型无疑是星环科技在大模型时代攻城拔寨的“桥头堡”。

首先来看“无涯”,它是一款 面向金融量化领域、超大规模参数量的生成式大语言模型 ,基于星环科技的图数据库、深度图推理算法等,使用了上百万的专业金融语料。目前,“无涯”构建了包括政策、舆情、 ESG 、风险、量价、产业链等在内的六类大模型基础因子集,擅长处理金融量化领域的各类问题,如政策和研报分析,对股票、债券、基金、商品等各类市场事件进行全面复盘、传播和推演,还能生成另类的策略因子集合,构建立体的归因解释体系等。

孙元浩介绍说:“之所以率先推出面向金融领域的大模型,因为我们在金融行业拥有多年的技术和经验积累,包括丰富的资讯来源、大量标注好的语料,并且做过量化因子的开发,同时发挥自身独特的技术优势,将多模感知、事件驱动、深度图计算相结合,从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现了全新的智能量化投研新范式。‘无涯’不仅具有极强的理解能力,能够执行特定的金融任务,而且基于量化策略,可以直接用来做示范交易,是现在就能够真正落地应用的大模型。”

再来看大数据分析大模型 SoLar “求索”,就像它的名字一样,目前它还在持续完善、优化之中。星环科技基于在 SQL 编辑器方面的多年经验,并结合大语言模型推出的 SoLar “求索”,无愧 为数据查询和分析的智能副手,为数据工程师、数据科学和业务人员提供了更好的使用体验 。由于 SoLar “求索”能够使用自然语言描述涉及多种数据模型的复杂业务需求,还可借助星环大数据平台特有的“多模型”技术,对不同模态(比如图数据、文本数据、结构化数据)的数据进行关联分析和展示,即使是非专业用户在不需要学习和掌握数据库编程语言的前提下,也能通过自然语言自由地按需查询数据。

孙元浩表示,领域大模型最直接的好处是能够提升数据处理的自动化程度。星环科技的主业就是大数据平台的开发,所以拥有大量的测试集,而且自己写编译器,生成 SQL 。这些最核心的技术优势与大模型碰撞出的火花,就产生了让数据分析平台更加智能化的 SoLar “求索”。

“无涯”、 SoLar “求索”的推出,其实是星环科技顺势而为:一是,因为这两者与星环科技的主营业务强相关;二是,无论是面向金融客户,还是在大数据分析领域,星环科技都有多年的技术开发和实践经验,这些积累在大模型的“催化”下,释放出了全部潜能;三是,从客户的需求来看,确实比较急迫地想尝试构建自己的大模型,改进现有应用,而星环科技为这些客户打造了成功的样板,生动阐释了打造自己专属大模型的可能性。

但就像孙元浩所说,大模型只是为了增强星环科技现有的产品,星环科技的主营业务还是“大数据基础软件”,而大模型只是一个新的加速引擎。为了让这个加速引擎能够被客户所用,星环科技致力于提供一系列的支撑工具,并乐此不疲。

比如,星环科技为客户提供了 大模型训练工具 Sophon LLMOps ,帮助企业构建自己的行业大模型。作为一个机器学习模型全生命周期管理的工具平台, Sophon LLMOps 针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强,形成了强大的 LLMOps 工具链,包括样本仓库能力、模型运维管理能力、大语言模型和其他任务的编排和调度和上线能力等。

归纳来说,星环 Sophon LLMOps 主要解决了客户的 三个核心痛点问题 :提供一站式工具链,帮助客户借助通用大语言模型进行训练、微调,从而得到满足自身业务需求的领域大语言模型;帮助客户将原型的大语言模型应用,成功投入到实际的生产应用中;帮助客户运营,使得应用中的大语言模型和大模型能够持续提升。

“当前, 基础大模型与行业落地应用之间的鸿沟非常大 ,是必须突破的行业壁垒。”孙元浩表示,“我们的基本策略是提供一系列工具,让我们的客户、合作伙伴,根据其自身的行业知识和积累,能够更加快速地打造出自己的模型,并且在上面开发自己的应用。我们看到,金融行业的一些头部企业已经在快速地落地大模型应用。”

多模态:

人人都需要一个个性化 AI 助理

孙元浩表示,进入大模型时代, 数据处理将更快地从单一模态向多模态进化 ,企业数据分析将进入新的次元。多模态就是研究如何将文本、图像、视频、音频,甚至是传感器数据,乃至结构化的数据进行融合、优化处理。

向量数据库顾名思义,就是专门用来存储和查询向量的数据库,其存储的向量就来自于对文本、语音、图像、视频等多模态信息的向量化。向量数据库不仅能够完成添加、读取查询、更新、删除等基本操作,还能对向量数据进行更快速的相似性搜索,其商业价值显著提升。东北证券发布的《向量数据库, AI 时代的 Killer App 》报告指出, AI 化的本质就是向量化。 向量数据库可以使得大模型保持准实时性,并提高大模型的适用性,从而使得大模型能够动态调整。向量数据库将为 AI 的腾飞插上翅膀。

顺应这一趋势,星环科技在本次大会上宣布推出自研的向量数据库 Transwarp Hippo ,以扩展大语言模型的时间和空间维度。对于用户来说,使用星环科技的向量数据库 + 分布式图数据库,可以构建基于大模型的应用,从而拥有自己个性化的 AI 助理。

Transwarp Hippo 作为一款企业级云原生分布式向量数据库 ,支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。与开源的向量数据库不同,星环自研的 Transwarp Hippo 具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,且支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等需求。

“我们发现,在应用大模型时,将 向量数据库与图数据库相结合 是一条事半功倍的捷径。”孙元浩表示,“在实际应用中,仅依靠一个向量数据库是远远不够的,需要各种模型的数据库。因此,在技术路线的选择上,我们希望通过一个平台,支持尽量多的模型,这是刚需。”

除了最新的向量数据库以外,星环科技在本次大会上还推出了多款数据库新品,包括面向图智能、业务分析的多模型企业级分布式图数据库 StellarDB 5.0 ,面向多元场景的高性能分布式时序数据库 TimeLyre 9.1 ,以及时空数据库 Spacture 等。

大模型的出现将对数据库未来的发展带来哪些影响呢?数据库作为大数据的关键支撑因素,在大模型大行其道的今天,像 LLMOps 、 DataOps 等都需要对数据进行有效整理,所以对数据库的需求会显著增加。尤其是 向量数据库,已经成为业界投资的一个热点 。星环科技也是从三四年前就开始了向量数据库的研发, Transwarp Hippo 的推出可谓厚积薄发。另外,孙元浩特别强调了 支持多模态数据的重要性 。星环科技一直在倡导并大力推动多模型数据库的应用,其产品原来就可以支持 10 种模型,现在又增加了新的模型,能够支持更多的非结构化数据存储。

从数据库技术的发展来看,现在数据库的存放都采用 SQL 接口,需要专业的 IT 人员进行数据分析。由于 AI 大模型的引入,未来的数据库或许可以提供一个自然语言助理,非 IT 人员也可以通过自然语言进行数据的操作与分析。这对于数据库应用将是一个极大的推动。

平民化:

人人都能成为数据科学家

所谓数据处理平民化,就是 非 IT 专业人员无须借助复杂的工具,也能快速处理数据 。这其实是 AI 演进的一个极大的驱动力。在形形色色的通用大模型和垂类大模型推出后,如何将这些大模型与更多的行业业务场景相结合,有效促进业务的创新成为关键任务。星环科技希望通过快速的产品创新、商业创新和生态创新,真正实现数据处理的平民化,也即 AI 的普惠化。

从产品层面看, 星环科技的大数据基础平台 TDH ,能够打破湖仓集的边界,让更多人可以访问实时 + 历史 / 原始 + 加工后的数据。比如,星环大数据基础平台 TDH 9.3 推出了新一代湖仓集存储格式 Holodesk ,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转,提升业务综合性能与时效性; TDH 9.3 还实现了多模型统一架构迭代升级,并全新发布向量模型存储, 10 大存储引擎共支持 11 种模型数据统一存储管理,支持统一查询处理语言完成跨模型数据流转与关联分析,业务开发更加便捷。

星环数据云平台 TDC 升级到了 3.2 。 TDC 3.2 支持星环 TDH 底座就地升级到星环 TDC ,利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,提高调度资源的灵活性和利用率 .

为了让数据流通更便利、更安全、更可控,星环科技还推出了数据要素流通产品 Navier 3.1 。

从实现国产化替代的角度看 ,孙元浩表示:“在国产大数据技术栈方面,通过十多年的不断打磨,我们已经做得比较成熟,在技术上已经可以完美地替代国外的大数据产品,并且在功能和性能上也基本领先国外产品接近一代。如今,国产大数据平台的替代步伐正不断加快, 星环科技推出的众多创新产品,能够替换国外的商业和开源大数据平台、数据库等基础软件产品 ,并且拥有大量成功的应用案例,为用户创造了新的价值,加速了数据处理的平民化。”

比如,星环分布式分析型数据库 ArgoDB 强化了实时分析能力,构建安全高效的国产化多模引擎,一站式满足用户数据仓库、数据集市、实时数仓、 OLAP 、 AETP 、联邦计算等需求,可以在批处理和 OLAP 、 Ad hoc 分析等场景中替代 Oracle/DB2/TD/SAP HANA 等国外产品;星环分布式图数据库 StellarDB 可以在图查询、图分析等场景替代开源图数据库 Neo4j ;星环科技自研的高性能时序数据库 TimeLyre 能够替代开源时序数据库 InfluxDB ,解决开源时序数据库不支持复杂分析,服务极其不稳定,以及缺乏安全可控性等问题。

从生态方面看 ,星环科技始终秉承“平台 + 生态”的发展理念,与软件开发商、硬件开发商、系统集成商等生态伙伴通力合作,打造大数据基础软件产品应用的生态体系,以提升竞争力。目前,星环科技拥有超过 600 家生态合作伙伴,涵盖系统集成、咨询交付、服务、 ISV 及行业应用等。

英伟达 CEO 黄仁勋在最近举行的 Computex 论坛上表示,人工智能将使所有人只需对着电脑说话,就能变身程序员。在大模型的带动和促进下,人工智能应用的普惠化必将加速到来。在智能数据分析领域, 人人都成为数据科学家 将不再是一句空话。

关键词:

精彩阅读

大模型更需要大数据,星环科技的跃升之路 快看

热点

针对AI大模型,又一家中国公司果断出手了。

天天快讯:ChatGPT唤醒AI游戏?

热点

继各种AI绘画、AI合成照片、视频之后,AI在游戏领域开启了新一场狂欢。

数字经济四大发展趋势-环球热讯

热点

从这个意义上说,推动数字经济高质量发展,需要把握数字经济发展的新趋势和新特征。

写给孩子的通信小讲座 环球热推荐

热点

通信,由一地向另一地进行信息的传输与交换。

精彩看点:对马斯克突然访华的一点看法

热点

马斯克访华,是我国在对美关系错综复杂的局势下,试图实现“政冷经热”局面的一次努力。

凯文·凯利:AI能解决多少问题,也能引发多少问题 环球百事通

热点

万能的神并没有创造世界,而是创造了可以创造世界的生物。重点在于二次创造。

世界要闻:OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度

热点

现在,大语言模型迎来了「无所不能」的时代,其中在执行复杂多步推理方面的能力也有了很大提高。

行业降价潮愈演愈烈,金山云为何陷入困境?降价的求生之路_全球即时看

热点

在头部厂商中,只有少数厂商已经实现了盈利,而金山云则是其中的一家。

2022年App Store营业额突破1.1万亿美元-新视野

热点

2022年AppStore营业额突破1 1万亿美元。

李彦宏为何要召唤AI独角兽? 当前关注

热点

李彦宏下“英雄贴”中国需要AI独角兽。

财富

今日快看!知乎:CTO李大海兼任面壁智能CEO

资讯

知乎:CTO李大海兼任面壁智能CEO,知乎宣布公司合伙人、CTO李大海自即日起出任知乎的被投资企业面壁智能的董

“句子互动”完成数百万美元Pre-A轮融资 今日看点

资讯

“句子互动”完成数百万美元Pre-A轮融资,北京句子互动科技有限公司已完成数百万美元Pre-A轮融资,由真成投

中国科技大佬们准备觐见“AI之王”

资讯

中国科技大佬们准备觐见“AI之王”,黄仁勋才是真正的“AI之王”。

B站错付Z世代|全球热讯

资讯

B站错付Z世代,增长停滞,节流不开源。

估值大师达摩达兰:英伟达是家好公司,但现在该套现了 当前速看

资讯

估值大师达摩达兰:英伟达是家好公司,但现在该套现了,“英伟达的大涨是在挑战可持续价值的绝对极限”。

中国科大研制出生物合成的纤维素基绝缘纳米纸

资讯

中国科大研制出生物合成的纤维素基绝缘纳米纸,近日,中国科学院院士、中国科学技术大学教授俞书宏团队报道

苹果新专利获批 为iPhone、iPad设计屏下Face ID_环球观焦点

资讯

苹果新专利获批为iPhone、iPad设计屏下FaceID,据美国商标和专利局(USPTO)公示的清单,苹果近日获得了编号

全球新消息丨我国首个量子信息技术国家标准正式发布

资讯

我国首个量子信息技术国家标准正式发布,6月2日消息,近日,我国首个量子信息技术领域国家标准《量子计算术

消息称苹果正招募新的软件工程师_天天精选

资讯

消息称苹果正招募新的软件工程师,6月2日,科技记者马克·古尔曼表示,苹果正招募新的软件工程师,要求熟悉

ChatGPT唤醒AI游戏?

资讯

ChatGPT唤醒AI游戏?,继各种AI绘画、AI合成照片、视频之后,AI在游戏领域开启了新一场狂欢。

天天快讯:ChatGPT唤醒AI游戏?

继各种AI绘画、AI合成照片、视频之后,AI在游戏领域开启了新一场狂欢。

数字经济四大发展趋势-环球热讯

从这个意义上说,推动数字经济高质量发展,需要把握数字经济发展的新趋势和新特征。

写给孩子的通信小讲座 环球热推荐

通信,由一地向另一地进行信息的传输与交换。

精彩看点:对马斯克突然访华的一点看法

马斯克访华,是我国在对美关系错综复杂的局势下,试图实现“政冷经热”局面的一次努力。

凯文·凯利:AI能解决多少问题,也能引发多少问题 环球百事通

万能的神并没有创造世界,而是创造了可以创造世界的生物。重点在于二次创造。

航司推出营销新方式 机票百元“次卡”受热捧

这是继包年随心飞、机票盲盒之后,机票行业的最新玩法,今年7月,由海南航空率先联合去哪儿平台推出。消费

迎接航天员回家 东风着陆场准备好了

神舟十五号搜救回收任务6月1日凌晨按照全系统、全状态、全流程,组织航天员搜救1∶1全系统综合演练。这是任

球阀型号规格对照表_球阀型号规格

1、一、规格为10毫米、15毫米、20毫米,型号如下图:  二、球阀的简单介绍:  球阀(ballvalve在海工和

世界热资讯!负筋示意图图片_负筋

1、设梁的净跨长度为L作基数计算,最上面一排负筋伸入到净跨度内的长度是L 3,上面第二排钢筋伸入到净跨内

魅族手机应该怎么退出Aicy 魅族手机退出Aicy方法

现在大家使用手机的频率越来越频繁,手机也为我们提供了许多的便利,也来说一下这个魅族手机应该怎么退出Ai

分水器的作用高中化学(分水器的作用)

分水器的作用高中化学,分水器的作用这个很多人还不知道,现在让我们一起来看看吧!1、分水器又可称为分集水