Apache InLong(应龙)是一站式的数据流接入服务平台,提供自动、安全、高性能、分布式的数据发布订阅能力,基于该系统用户可以轻松构建基于流式的数据应用。
书籍目录
引导
组件介绍
联系我们
内容节选
inlong-sort是一个基于flink的ETL系统,支持多种数据源,支持简单的字段抽取,支持多种存储系统。 inlong-sort依赖inlong-manager进行系统元数据的管理,元数据依赖zk进行存储及同步。
特性
多租户系统
inlong-sort支持多租户,一个inlong-sort的作业中可以包含多个同构的数据源,以及多个同构的存储系统。 并且针对不同的数据源,可以定义不同的数据格式以及字段抽取方式。 多租户系统依赖inlong-manager的元数据管理,用户只需要在inlong-manager的前端页面进行相应的配置,即可实现。 举例:以tubemq为source,hive为存储为例,同一个inlong-sort的作业可以订阅多个topic的tubemq数据,并且每个topic的数据可以写入不同的hive集群。
支持热更新元数据
inlong-sort支持热更新元数据,比如更新数据源的信息,数据schema,或者写入存储系统的信息。 需要注意的是,当前修改数据源信息时,可能会造成数据丢失,因为修改数据源信息后,系统会认为这是一个全新的subscribe,会默认从消息队列的最新位置开始消费。 修改数据schema,抽取字段规则以及写入存储的信息,不会造成任何数据丢失,保证exactly-once