GaussDB(DWS)迁移：一种执行高效的TereData的marco迁移方案

2023-02-13 16:38 由华为云开发者联盟发表于 #数据库

摘要：提供一种执行高效的TereData的marco迁移方案。

本文分享自华为云社区《GaussDB(DWS)迁移 - teredata兼容 -- macro兼容 # 【玩转PB级数仓GaussDB(DWS)】》，作者：譡里个檔。

Teradata的宏是一组可以接受参数的SQL语句，通过调用宏名称来执行一段SQL语句，执行上类似于DWS的存储过程。在迁移的时候也建议使用DWS的函数替换TeraData的宏。

测试表定义

CREATE SCHEMA test;
CREATE TABLE test.salary(
 employeeno integer,
 netpay integer
)
WITH (orientation=row, compression=no)
DISTRIBUTE BY ROUNDROBIN;
INSERT INTO test.salary VALUES (1, 1);

TereData宏定义

CREATE MACRO get_emp_salary(employeeno integer) AS ( 
 SELECT 
 employeeno, 
 netpay 
 FROM test.salary 
 WHERE employeeno = :employeeno; 
);

DWS迁移的函数定义

CREATE OR REPLACE FUNCTION public.get_emp_salary(
 employeeno integer,
 OUT employeeno integer,
 OUT netpay integer
)
 RETURNS SETOF record
 LANGUAGE sql
NOT SHIPPABLE STABLE
AS $function$
 SELECT 
 employeeno, 
 netpay 
 FROM test.salary 
 WHERE employeeno = $1; 
$function$;

Note：函数定义中属性要如上定义，需要明确的是

1) 必须是STABLE

2) 函数语言必须是SQL语言

3) 查询语句的返回值类型和函数的出参类型一致

4) 必须是NOT SHIPPABLE(默认就是NOT SHIPPABLE属性)

5) 不能定义为STRICT属性(默认就是非STRICT属性)

6) 不能定义配置参数(默认就是非STRICT属性)

7) 函数的权限属性为SECURITY INVOKER(默认就是SECURITY INVOKER属性)

这样定义的好处是就是当函数体中是简单的单查询语句时，函数调用可以直接优化为对函数体内的SQL语句的调用，执行上避开FuctionSCan的换成层以及SQL不下推的问题，执行上更加高效(具体见下面的case)

语句执行效果

postgres=# EXPLAIN VERBOSE SELECT * FROM get_emp_salary(1);
                                              QUERY PLAN
------------------------------------------------------------------------------------------------------
  id |                      operation                      | E-rows | E-distinct | E-width | E-costs
 ----+-----------------------------------------------------+--------+------------+---------+---------
 1 | -> Data Node Scan on salary "_REMOTE_TABLE_QUERY_" | 1 | | 8 | 0.00
 Targetlist Information (identified by plan id)
 ------------------------------------------------------------------------------------------
 1 --Data Node Scan on salary "_REMOTE_TABLE_QUERY_"
         Output: salary.employeeno, salary.netpay
         Node/s: All datanodes
         Remote query: SELECT employeeno, netpay FROM ONLY test.salary WHERE employeeno = 1
(10 rows)

点击关注，第一时间了解华为云新鲜技术~

Redis为什么能抗住10万并发？揭秘性能优越的背后原因

Redis是一个开源的，基于内存的，高性能的键值型数据库。它支持多种数据结构，包含五种基本类型 String（字符串）、Hash（哈希）、List（列表）、Set（集合）、Zset（有序集合），和三种特殊类型 Geo（地理位置）、HyperLogLog（基数统计）、Bitmaps（位图），可以满足各... ...阅读全文

qrtz表初始化脚本_mysql

DROP TABLE IF EXISTS qrtz_blob_triggers; DROP TABLE IF EXISTS qrtz_calendars; DROP TABLE IF EXISTS qrtz_cron_triggers; DROP TABLE IF EXISTS qrtz_fired ...阅读全文

面试题百日百刷-kafka篇(二)

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.解释一下，在数据制作过程中，你如何能从Kafka得到准确的信息？在数据中，为了精确地获得Kafka的消息，你必须遵循两件事: 在数据消耗期间避免重复，在数据生产过程中避免重复。这里有两种方法， ...阅读全文

sql 连续活跃天数

1. 背景已知数据集为：目的：计算每个uid的连续活跃天数，并且每一段活跃期内的开始时间和结束时间 2. 步骤第一步：处理数据集处理数据集，使其满足每个uid每个日期只有一条数据。第二步：以uid为主键，按照日期进行排序，计算row_number. SELECT uid ,`征信查询日期 ...阅读全文

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

一、概述 XGBoost是一种基于决策树的集成学习算法，它在处理结构化数据方面表现优异。相比其他算法，XGBoost能够处理大量特征和样本，并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。二、代码实现步骤 1、导入相关库 import org.apach ...阅读全文

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

一、贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率，生活中，我们可能很容易知道P（A|B），但是我需要求解P（B|A），学习了贝叶斯定理，就可以解决这类问题，计算公式如下： P（A）是A的先验概率 P（B）是B的先验概率 P（A|B）是A的后验概率（已经知道B发生过了） P（B|A）是B的后验 ...阅读全文

给技术新人的ODPS优化建议

数据开发基本都是从陌生到熟悉，但是写多了就会发现各种好用的工具/函数，也会发现各种坑，本文分享了作者从拿到数据到数据开发到数据监控的一些实操经验。 ...阅读全文

云图说｜云数据库GaussDB如何做到卓越性能

摘要：对于数据库来说，性能一直被视为最关键的部分。GaussDB作为华为自主创新研发的分布式关系型数据库，那么华为云数据库GaussDB在提升数据库性能方面都有哪些黑科技呢？本文分享自华为云社区《【云图说】第275期云数据库GaussDB如何做到卓越性能》，作者：阅识风云。对于数据库来说，性能 ...阅读全文

基于chunjun纯钧的增量数据同步问题排查【博客园-实习小生】

基于chunjun纯钧的增量数据同步目前我司的大数据平台使用的是flink技术栈，底层的连接器插件使用的是国产的chunjun插件，在使用chunjun的过程中也遇到了很多问题，本次记录下在SQL模式的情况下怎么支持增量的数据同步 chunjun的官网文档对增量同步已经做出了一定的说明纯钧官方 ...阅读全文

电商平台商品详情接口的应用场景

☞ 商品接口的定义价格、库存量、发货地点等。此外，它还可以提供商品的详细信息，包括商品的图片、详细描述、规格参数、售后服务等。这些信息可以帮助用户更好地了解商品，从而更好地选择商品。其次，电商平台商品详情接口的实现原理是基于RESTful API。RESTful API是一种基于HTTP协议的A ...阅读全文