资讯详情

Java 结构化数据处理开源库 SPL

前言介绍:

现代Java应用程序架构越来越强调数据存储和处理的分离,以获得更好的可维护性、可扩展性和可移植性,如热微服务。该架构通常需要业务逻辑Java在数据库中实现程序,而不是像传统的应用架构一样。

应用中的大多数业务逻辑都涉及结构化数据处理。(SQL)对此类任务有丰富的支持,可以相对简单地实现业务逻辑。Java但这种基本支持一直缺乏,导致使用Java实现业务逻辑非常繁琐和低效。因此,虽然结构有各种优势,但开发效率大大降低。

如果我们在Java它还提供了一套完整的结构化数据处理和计算库,可以解决这个问题:享受架构的优势,而不降低开发效率。

Java理想的结构化数据处理类库应该具备哪些特点?我们可以从SQL来总结:

结构化数据通常是批量的(以集合的形式),有必要提供足够的集合操作能力,以便于计算这些数据。

如果没有集合运算库,只有基本数据类型的数组(相当于集合),我们需要写一个简单的集合成员和四个或五个元素循环句子来完成,过滤、集合和其他操作需要写数百行代码。

SQL提供丰富的集合运算,如 SUM/COUNT 等待聚合运算,WHERE 用于过滤、GROUP 用于分组,还支持集合交付、合并、差等基本操作。这样写出来的代码会短很多。

有集合运算能力就够了吗?假设我们是为了 Java 能否开发一批集合运算类库? SQL 的效果呢?

没那么简单!

以过滤操作为例。过滤通常需要保留符合条件的集合成员。在 SQL 这种情况是以表达式的形式出现的,比如写作 WHERE x>0,这意味着保留这些,这意味着保留这些 x>0 计算结果是真实成员。这个表达式 x>0 它不是在执行这个句子之前计算的,而是在遍历时为每个集合成员计算的。本质上,这种表达式本质上是一个函数,是一个以当前集合成员为参数的函数。对于 WHERE 就操作而言,它相当于使用表达式定义的函数 WHERE 的参数。

这种写法有一个术语叫做术语 Lambda 语法,或者叫函数式语言。

如果没有 Lambda 语法,我们必须经常临时定义函数,代码将非常繁琐,但也容易发生名称冲突。

SQL大量使用 Lambda 语法,不在于必须过滤、分组操作,也可以用于计算列等不必要的场景,大大简化了代码。

结构化数据不是简单的单值,而是带有字段的记录。

我们发现,SQL 在表达参数中引用记录字段时,在大多数情况下,字段名称可以直接使用,而无需指示字段所属的记录。只有在多个同名字段中,表名(或别名)才需要区分。

新版本的 Java 尽管也开始支持 Lambda 语法,但只能将当前记录作为参数传入此用途 Lambda 语法定义函数,然后在编写计算式时总是带来这个记录。例如,当用单价和数量计算金额时,如果用来表示当前成员的参数被称为 x,需要写x. 单价 *x. 数量这种冗长的形式。而在 SQL 它可以更直观地写成 " 单价 * 数量”。

SQL动态数据结构也能得到很好的支持。

在结构化数据计算中,返回值通常是结构化数据,结果数据结构与计算有关,在编写代码之前无法准备。因此,有必要支持动态的数据结构能力。

SQL中任何一个 SELECT 句子产生新的数据结构,可以在代码中随意添加删除字段,而无需事先定义结构(类)。Java 这种语言不好。在代码编译阶段,应定义所使用的结构(类别)。原则上,在执行过程中不能动态生成新的结构。

从前面的分析中,我们可以得出结论:Java 不适用于结构化数据处理语言。 Lambda 该机制不支持特征 3.作为一种编译语言,特征无法实现 4。

其实前面说的 Lambda 语法也不太适合采用编译型语言来实现。编译器无法确定写在参数位置的表达式是应该当场计算表达式的值,还是将整个表达式编译成函数,需要设计更多的语法符号来区分。解释语言没有这个问题。函数本身可以决定作为参数的表达式是先计算还是遍历集合成员。

SQL确实是解释性语言。

引入SPL

是Java8以官方身份推出的结构化数据处理库不符合上述要求。它没有专业的结构化数据类型,缺乏许多重要的结构化数据计算函数,不是解释性语言,不支持动态数据类型,Lambda语法界面复杂。

属于Java生态系统的一部分,它在Stream在此基础上进行了轻微的改进,也提供了结构化数据计算类型,但由于结构化数据计算函数不足,不支持动态数据类型,Lambda语法界面复杂,仍然不是理想的结构化数据计算库。

它提供了丰富的结构化数据计算函数,但编译语言的特点使其无法成为理想的结构化数据计算库

那么,Java生态下还能用什么?

SPL是由Java解释执行的程序语言,结构化数据计算库丰富,接口简单Lambda语法和动态数据结构方便易用,是Java理想的结构化处理类库。

SPL提供专业的结构化数据类型,即序表。SQL与数据表一样,序表是由批量记录组成的集合,具有结构化数据类型的一般功能,下面举例说明。

分析源数据并生成序表: Orders=T("d:/Orders.csv")

从原序表中生成新的序表: Orders.new(OrderID, Amount, OrderDate)

计算列: Orders.new(OrderID, Amount, year(OrderDate))

字段改名: Orders.new(OrderID:ID, SellerId, year(OrderDate):y)

按序号使用字段: Orders.groups(year(_5),_2; sum(_4))

序表改名(左关联) join@1(Orders:o,SellerId ; Employees:e,EId).groups(e.Dept; sum(o.Amount))

序表支持所有结构化计算函数,计算结果也是序表,而不是Map等数据类型。例如,对于分组汇总结果,继续进行结构化数据处理:

Orders.groups(year(OrderDate):y; sum(Amount):m).new(y:OrderYear, m*0.2:discount)

在序表的基础上,SPL它提供了丰富的结构化数据计算函数,如过滤、排序、分组、去重、更名、计算列、关联、子查询、集合计算、有序计算等。这些函数具有很强的计算能力,可以独立完成计算,无需硬编码:

组合查询: Orders.select(Amount>1000 && Amount<=3000 && like(Client,"*bro*"))

排序: Orders.sort(-Client,Amount)

分组汇总: Orders.groups(year(OrderDate),Client; sum(Amount))

内关联: join(Orders:o,SellerId ; Employees:e,EId).groups(e.Dept; sum(o.Amount))

SPL支持接口简单Lambda语法,无需定义函数名和函数体,可直接以表达式作为函数参数,如过滤: Orders.select(Amount>1000)

在修改业务逻辑时,不需要重构函数,只需简单地修改表达式: Orders.select(Amount>1000 && Amount<2000)

SPL它是一种解释性语言,在使用参数表达式时,无需明确定义参数类型Lambda接口更简单。例如,计算平方和,想要sum在计算平方的过程中,可以直观地写作: Orders.sum(Amount*Amount)

和SQL类似,SPL单表计算时,语法还支持直接使用字段名: Orders.sort(-Client, Amount)

SPL它是一种自然支持动态数据结构的解释性语言,可以根据计算结果结构动态生成新的序列表。特别适用于计算列、分组汇总关联等计算,如直接计算分组汇总的结果: Orders.groups(Client;sum(Amount):amt).select(amt>1000 && like(Client,"*S*"))

或直接计算关联计算的结果: join(Ordes:o,SellerId ; Employees:e,Eid).groups(e.Dept; sum(o.Amount))

较复杂的计算通常都要拆成多个步骤,每个中间结果的数据结构几乎都不同。SPL支持动态数据结构,不必先定义这些中间结果的结构。比如,根据某年的客户回款记录表,计算每个月的回款额都在前10名的客户: Sales2021.group(month(sellDate)).(~.groups(Client;sum(Amount):sumValue)).(~.sort(-sumValue)) .(~.select(#<=10)).(~.(Client)).isect()

SPL中还实现了SQL的解释器,可以直接执行SQL,从基本的WHERE、GROUP到JOIN、甚至WITH都能支持:

$select * from d:/Orders.csv where (OrderDate<date('2020-01-01') and Amount<=100)or (OrderDate>=date('2020-12-31') and Amount>100)
$select year(OrderDate),Client ,sum(Amount),count(1) from d:/Orders.csvgroup by year(OrderDate),Clienthaving sum(Amount)<=100
$select o.OrderId,o.Client,e.Name e.Dept from d:/Orders.csv ojoin d:/Employees.csv e on o.SellerId=e.Eid
$with t as (select Client ,sum(amount) s from d:/Orders.csv group by Client)select t.Client, t.s, ct.Name, ct.address from tleft join ClientTable ct on t.Client=ct.Client

更多语言优势

作为专业的结构化数据处理语言,SPL不仅覆盖了SQL的所有计算能力,在语言方面,还有更强大的优势:

集合化是SQL的基本特性,即支持数据以集合的形式参与运算。但SQL的离散性很不好,所有集合成员必须作为一个整体参于运算,不能游离在集合之外。而Java等高级语言则支持很好的离散性,数组成员可以单独运算。

但是,更彻底的集合化需要离散性来支持,集合成员可以游离在集合之外,并与其它数据随意构成新的集合参与运算 。

SPL兼具了SQL的集合化和Java的离散性,从而可以实现更彻底的集合化。

比如,SPL中很容易表达“集合的集合”,适合。比如,找到各科成绩均在前10名的学生:

A
1 =T("score.csv").group(subject)
2 =A2.(~.rank(score).pselect@a(~<=10))
3 =A1.(~(A3(#)).(name)).isect()

SPL序表的字段可以存储记录或记录集合,这样可以用的方式,直观地表达关联关系,即使关系再多,也能直观地表达。比如,根据员工表找到女经理下属的男员工:

Employees.select(性别:"男",部门.经理.性别:"女")

是离散性和集合化的典型结合产物,成员的次序在集合中才有意义,这要求集合化,有序计算时又要将每个成员与相邻成员区分开,会强调离散性。SPL兼具集合化和离散性,天然支持有序计算。

具体来说,SPL可以按绝对位置引用成员,比如,取第3条订单可以写成Orders(3),取第1、3、5条记录可以写成Orders([1,3,5])。

SPL也可以按相对位置引用成员,比如,计算每条记录相对于上一条记录的金额增长率:Orders.derive(amount/amount[-1]-1)

SPL还可以用#代表当前记录的序号,比如把员工按序号分成两组,奇数序号一组,偶数序号一组:Employees.group(#%2==1)

大量功能强大的结构化数据计算函数,这本来是一件好事,但这会让相似功能的函数不容易区分。无形中提高了学习难度。

SPL提供了特有的函数选项语法,功能相似的函数可以共用一个函数名,只用区分差别。比如select函数的基本功能是过滤,如果只过滤出符合条件的第1条记录,只须使用选项@1: Orders.select@1(Amount>1000)

数据量较大时,用并行计算提高性能,只须改为选项@m: Orders.select@m(Amount>1000)

对排序过的数据,用二分法进行快速过滤,可用@b: Orders.select@b(Amount>1000)

函数选项还可以组合搭配,比如: Orders.select@1b(Amount>1000)

结构化运算函数的参数常常很复杂,比如SQL就需要用各种关键字把一条语句的参数分隔成多个组,但这会动用很多关键字,也使语句结构不统一。

SPL支持,通过分号、逗号、冒号自高而低将参数分为三层,用通用的方式简化复杂参数的表达: join(Orders:o,SellerId ; Employees:e,EId)

普通的Lambda语法不仅要指明表达式(即函数形式的参数),还必须完整地定义表达式本身的参数,否则在数学形式上不够严密,这就让Lambda语法很繁琐。比如用循环函数select过滤集合A,只保留值为偶数的成员,一般形式是: A.select(f(x):{x%2==0} )

这里的表达式是x%2==0,表达式的参数是f(x)里的x,x代表集合A里的成员,即循环变量。

SPL用,当参数是循环变量时就无须再定义参数了。在SPL中,上面的Lambda语法可以简写作:A.select(~ %2==0)

普通Lambda语法必须定义表达式用到的每一个参数,除了循环变量外,常用的参数还有循环计数,如果把循环计数也定义到Lambda中,代码就更繁琐了。

SPL用。比如,用函数select过滤集合A,只保留序号是偶数的成员,SPL可以写作:A.select(# %2==0)

相对位置经常出现在难度较大的计算中,而且相对位置本身就很难计算,当要使用相对位置时,参数的写法将非常繁琐。

SPL用

A B
1 =T("Orders.txt") /订单序表
2 =A1.groups(year(Date):y,month(Date):m;   sum(Amount):amt) /按年月分组汇总
3 =A2.derive(amt/amt[-1]:lrr, amt[-1:1].avg():ma) /计算比上期和移动平均

无缝集成、低耦合、热切换

作为用Java解释的脚本语言,SPL提供了JDBC驱动,可以无缝集成进Java应用程中。

简单语句可以像SQL一样直接执行:

Class.forName("com.esproc.jdbc.InternalDriver");Connection conn =DriverManager.getConnection("jdbc:esproc:local://");PrepareStatement st = conn.prepareStatement("=T(\"D:/Orders.txt\").select(Amount>1000 && Amount<=3000 && like(Client,\"*S*\"))");ResultSet result=st.execute();...

复杂计算可以存成脚本文件,以存储过程方式调用

Class.forName("com.esproc.jdbc.InternalDriver");Connection conn =DriverManager.getConnection("jdbc:esproc:local://");Statement st = connection.();CallableStatement st = conn.prepareCall("{call splscript1(?, ?)}");st.setObject(1, 3000);st.setObject(2, 5000); ResultSet result=st.execute();...

将脚本外置于Java程序,一方面可以降低代码耦合性,另一方面利用解释执行的特点还可以支持热切换,业务逻辑变动时只要修改脚本即可立即生效,不像使用Java时常常要重启整个应用。这种机制特别适合编写微服务架构中的业务处理逻辑。

简单好用的SPL开源啦!

SPL下载地址

SPL开源地址

标签: 速度传感器spll85a

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台