GIS 中的数据工程-开启ETL 之旅

2024-05-02 GIS 178
A⁺AA⁻

地理空间数据工程

GIS 中的数据工程为分析准备空间数据。例如,此过程填充缺失值、添加字段、地理丰富和清理值。通常,整个数据科学工作流程从数据工程和必要的ETL 工作流程开始。数据工程方面可能是数据科学中最耗时的方面。但也是分析中最关键的部分之一,因其与输入的数据一样好。

在本文中,我们将探讨地理空间数据工程的基本组成部分,并讨论如何优化空间数据以进行分析。

数据工程中的关键术语

地理空间数据无处不在,是许多数据驱动的关键业务任务的核心。从绘制属性边界到分析作物产量,地理空间分析可以帮助组织理解他们的数据。就如任何类型的数据一样,可以进行常规流程,据科学家/分析师能够为业务团队提供洞察力。以下是数据工程过程中通常附带的一些关键术语:

  • DATA WAREHOUSE:来自各种来源的数据库 *** , 就像一个数据库,每个人都可以拥有多个数据仓库。
  • DATA LAKE:非结构化数据的存储库,将其视为数据的倾倒场。
  • DATABASE:表、列和行形式的结构化数据。
  • 数据管道:一系列任务,每个任务都在一个数据集上运行, 将数据从一个系统传递到另一个系统,通常用于收集、 存储和处理数据以用于分析目的。
  • EXTRACT, TRANSFORM, LOAD (ETL):从一个系统中提取数据, 将其转换为另一个系统可以使用的格式, 并将其加载到最终系统中用于业务分析的过程。

ETL——提取、转换、加载

ETL(提取、转换加载)是一系列流程,可让数据为分析和业务洞察做好准备,将数据从一个数据库移动到一个或多个数据库作为管道项目。可将 ETL 视为接力赛。数据在某一时刻进入系统,并进行转换,后从一个跑步者传递到下一个跑步者,直到到达最终目的地。

微信号:MeetyXiao
添加微信好友, 获取更多信息
复制微信号
GIS 中的数据工程-开启ETL 之旅

数据工程工具

数据工程是从各种来源收集数据并创建将数据从原始 来源移动到数据仓库的数据管道的过程。尽管空间分析是许多数据驱动过程的核心,但地理空间分析可能具有挑战性且乏味。尽管增加了复杂性,但 GIS 中的数据工程在过去几年中一直受到关注。以下是一些对地理空间数据具有原生支持的关键数据工程软件应用程序。

Snowflake

Snowflake 是基于云的数据仓库和数据湖,从各种来源收集数据。它是一种软件即服务 (SAS),可实现可扩展的数据存储和处理。同样,提供了更快速、更易于使用的灵活分析解决方案。它自己的 SQL 查询引擎是专门为云设计的。Snowflake 支持的一些地理空间数据类型包括 Geo *** ON 和 PostGIS。

Apache AirFlow

这个基于 Python 的开源 ETL 工具专为构建和准备数据管道而设计。每个进程都是一个用有向无环图 (DAG) 表示的任务,该有向无环图 (DAG) 将进程从一个连接到另一个。此外,Apache AirFlow具有一组独特的工具,可编写、调度、迭代和监控数据管道。

Feature Manipulation Engine (FME)

SAFE Software 的 FME 的核心是空间 ETL 专家。通过利用 FME Cloud,是一种控制数据流的灵活解决方案。但也允许在其云基础设施之外工作,例如使用 AWS。通过读取器、写入器和转换器构建工作台,可通过地理空间格式的更大互操作性来完善 ETL 过程。

GIS 中的数据工程-开启ETL 之旅

Alteryx

这是数据工程工具的另一个示例,可在其中如 Apache Airflow 一样将作业作为 DAG 执行。Alteryx专门从事 ETL 处理。这意味着也可以从其他来源提取和丰富数据,将转换后的数据移动到 Snowflake 或任何基于云的平台。

Elasticsearch

Elasticsearch 是免费的开源工具,用于搜索和分析所有类型的数据,包括文本信息和其他数据类型。这种数据工程工具也被广泛用于 GIS 集成,因其将Elastic Maps 应用程序与 Kibana 相结合,允许分析和可视化地理空间数据。

Databricks

Databricks Geospatial Lakehouse 是用于大规模空间数据科学和 协作的数据工程平台。Databricks是数据工程的主要参与者之一。甚至可以通过 CARTO Spatial Extension for Databricks 连接,以挖掘甚至静音的潜力来解锁云中的空间分析。

GIS中的数据工程

空间数据工程侧重于管理、处理、清理和分析地理空间数据。它与空间数据科学密切相关。但数据工程师更关注数据工程过程的实施,而数据科学家更专注于数据的发现和探索。

GIS中的数据工程是从多个源中提取和编译数据,将空间数据转换为对业务有用的格式,后将其加载到数据仓库中的过程。这种注重实践、注重细节的职业要求数据工程师是耐心的问题解决者,喜欢细致的工作。但是,当将地理空间添加到等式中时,这会增加云中空间分析的复杂性。

来源:开源地理空间基金会中文分会

来源链接:https://www.osgeo.cn/post/1ea53

本站声明:网站内容来源于 *** ,如有侵权,请联系我们,我们将及时处理。

客服微信号码

客服微信号码

客服微信号码

客服微信号码

留言咨询
提交留言

您将免费获得

  • 全面诊断

    您将获得专家对您公司申请资质所需条件的全面诊断服务,我们不同于传统代办公司,仅是提供一些通用的,浅显的建议

  • 找出疏忽点

    我们在了解您公司的基本情况之后,将挖掘出您公司目前不利于资质申请的疏忽点,还将详细说明您在申请资质时应当改善的确切的事项。

  • 分析需求

    我们通过丰富的从业经验,结合目前的实际情况,确认好符合您实际经营情况的资质需求。

  • 定制方案与报价

    对您的需求深入了解后,将结合您公司目前的情况,我们将为您量身定制一份资质代办方案及报价单。

获取方案

×
请设置您的cookie偏好
欢迎来到资质参谋
我们希望在本网站上使用cookie,以便保障本网站的安全、高效运转及服务优化,有关我们使用cookie的更多信息,请点击查看了解更多。
接收Cookies
决绝Cookies