地理空间人工智能(geoAI)的新兴趋势:环境流行病学的潜在应用

  • dqy 

抽象

地理空间人工智能(geoAI)是一门新兴的科学学科,它结合了空间科学的创新,机器学习(例如,深度学习)中的人工智能方法,数据挖掘和高性能计算,以从空间大数据中提取知识。在环境流行病学中,暴露建模是进行暴露评估以确定研究人群中暴露分布的常用方法。geoAI技术为环境流行病学中的暴露建模提供了重要的优势,包括能够以各种格式整合大量的大空间和时间数据; 计算效率; 算法和工作流程的灵活性,以适应空间(环境)过程的相关特征,包括空间非平稳性; 和可扩展性,以模拟不同地理区域的其他环境暴露。本评论的目的是概述围绕GEOAI不断发展和跨学科领域的关键概念,包括空间数据科学,机器学习,深度学习和数据挖掘; 最近geoAI在研究中的应用; 以及环境流行病学中geoAI的潜在未来发展方向。

关键词

  • 地理空间人工智能
  • geoAI
  • 空间数据科学
  • 机器学习
  • 深度学习
  • 数据挖掘
  • 遥感
  • 环境流行病学
  • 曝光建模

背景

空间科学,也称为地理信息科学,在许多科学学科中发挥着重要作用,因为它试图根据它们的位置来理解,分析和可视化现实世界现象。空间科学家将地理信息系统(GIS)和遥感等技术应用于空间(例如,地理参考)数据以实现这些目标 – 识别和理解空间模式。与当前大数据时代相关的是空间大数据的实时生成,从Twitter上的地理标记社交媒体帖子到收集气象信息的环境传感器无处不在[ 1]]。有人提出,至少有80%的数据属于地理性质,因为我们周围的大多数信息都可以进行地理参考[ 1 ]。通过这种方法,每天产生的2.5艾字节(2,500,000,000千兆字节)的大数据中有80%是地理的[ 2 ]。数据科学,以及通过扩展空间数据科学,仍然是不断发展的领域,提供了组织我们如何思考和从(空间)大数据中产生新知识的方法。

地理空间人工智能(geoAI)的科学领域最近是由空间科学的创新与人工智能(AI)方法的快速发展,特别是机器学习(例如,深度学习),数据挖掘和高性能计算相结合而形成的。从空间大数据中收集有意义的信息。geoAI是高度跨学科的,跨越了许多科学领域,包括计算机科学,工程,统计学和空间科学。geoAI的创新部分在于其应对解决实际问题的应用。特别是,2017年计算机协会(ACM)空间信息特别兴趣小组(SIGSPATIAL)GeoAI国际研讨会上展示了geoAI应用:AI和地理知识发现的深度学习(指导委员会由美国能源部橡树岭国家实验室城市动力学研究所领导),其中包括遥感图像分类和交通预测建模的进展。此外,人工智能技术在空间数据发现知识方面的应用反映了其他科学界所展示的最新趋势,包括国际空间和时间数据库研讨会。这些新颖的geoAI方法可用于解决与人类健康相关的问题,例如,在环境流行病学中[ 人工智能技术在空间数据知识发现中的应用反映了其他科学界所展示的最新趋势,包括国际空间和时间数据库研讨会。这些新颖的geoAI方法可用于解决与人类健康相关的问题,例如,在环境流行病学中[ 人工智能技术在空间数据知识发现中的应用反映了其他科学界所展示的最新趋势,包括国际空间和时间数据库研讨会。这些新颖的geoAI方法可用于解决与人类健康相关的问题,例如,在环境流行病学中[3 ]。特别是,geoAI技术开始用于环境暴露建模领域,这通常用于在这些研究中进行暴露评估[ 4 ]。最终,将geoAI与环境流行病学相结合的总体目标之一是进行更准确和高度分辨的环境暴露模型(与传统方法相比),这反过来将导致更准确地评估我们所暴露的环境因素,从而提高了对流行病学研究中环境暴露与疾病之间潜在关联的理解。此外,geoAI提供了测量先前难以捕获的新曝光的方法。

本评论的目的是概述围绕新兴GEOAI领域的关键概念; GEOAI技术和应用的最新进展; 以及环境流行病学中geoAI的潜在未来发展方向。

区分流行语:大数据空间和数据科学

目前,几个关键概念是理解地理空间大数据革命的最前沿。大数据,例如电子健康记录和客户交易,通常以大量数据为特征; 各种各样的数据源,格式和结构; 和新数据制作的高速[ 567 ]。因此,大数据需要专门的处理和分析方法和技术。数据科学广义上是指方法从大数据的严格分析提供新的知识,从整合学科,包括计算机科学,工程和统计[方法和概念89]。数据科学工作流程通常类似于数据导入和处理的迭代过程,然后是清理,转换,可视化,建模,最后是结果通信[ 10 ]。

空间数据科学是一个利基,仍然形成一个领域,专注于处理,管理,分析和可视化空间大数据的方法,提供从复杂空间现象中获取动态见解的机会[ 11 ]。空间数据科学工作流程包括数据处理,数据集成,探索性数据分析,可视化和建模的步骤 – 特别适用于空间数据,通常使用专用软件进行空间数据格式[ 12]。例如,空间数据科学工作流可以包括使用开源解决方案的数据争论,例如地理空间数据抽象库(GDAL),R,Python和Spatial SQL中的脚本,用于通过高性能计算促进的空间分析(例如,查询大数据存储在分布式数据基础设施上,通过云计算平台(如Amazon Web Services进行分析;或在超级计算机上进行空间大数据分析),以及使用D3进行地理可视化。空间数据综合被认为是空间数据科学中的一项重要挑战,其中包括与空间数据聚合(不同尺度)和空间数据整合(协调与格式,参考,单位等相关的各种空间数据类型)相关的问题[ 11]]。cyberGIS的进步(定义为基于先进的网络基础设施和电子科学的GIS) – 以及更广泛的高维数据计算能力 – 在改变我们处理空间大数据的能力以及空间数据方面发挥了不可或缺的作用科学应用。例如,2014年创建了一个名为ROGER的国家科学基金会支持的cyberGIS超级计算机,通过高性能计算(例如,> 4PB的高速持久存储),图形处理单元,可以执行需要高级网络基础设施的地理空间应用程序(GPU)-accelerated计算,使用Hadoop和火花,并OPENSTACK云计算[大数据密集型子系统1113 ]。

随着空间数据科学不断发展成为一门学科,空间大数据不断扩大,两个突出的例子是自愿地理信息(VGI)和遥感。术语VGI用用位置组件封装用户生成的内容[ 14 ]。在过去的十年中,随着社交媒体和智能手机的出现和持续扩张,VGI出现了爆炸式增长,用户可以在Twitter上发布地理标记的Twitter,Instagram照片,Snapchat视频和Yelp评论[ 15 ]。VGI的使用应伴随着对潜在法律问题的认识,包括但不限于VGI的运营商,贡献者和用户的知识产权,责任和隐私[ 16]]。遥感是另一种类型的空间大数据捕捉远距离物体的特征,如卫星传感器的图像[ 17 ]。取决于传感器,遥感空间大数据在其地理覆盖范围(跨越整个地球)以及其时间覆盖(具有频繁的重访时间)方面可以是扩展的。近年来,随着私营公司和政府继续发射更高分辨率的卫星,卫星遥感大数据大幅增加。例如,DigitalGlobe公司收集超过十亿公里2每年高分辨率图像作为其商业卫星星座包括世界观的GeoEye飞船的一部分[ 18]。自1972年以来,美国地质调查局和NASA Landsat计划不断发射地球观测卫星,空间分辨率高达15米,随后每次Landsat任务都会增加光谱分辨率(例如2013年推出的Landsat 8操作陆地成像仪和热红外传感器)由9个光谱带和2个热带组成[ 19 ]。

地理空间人工智能(geoAI):新生起源

数据科学涉及在人工智能(AI)和数据挖掘等科学领域中应用方法。AI是指机器,使世界的意义,即自动创建大数据扩展性的见解过程[ 520 ]。机器学习是人工智能的一个子集,侧重电脑获取知识反复地提取信息,并在原始数据[从模式学习上2021]。深度学习是一种尖端的机器学习类型,它从大脑功能中汲取灵感,代表了一种灵活而强大的方式,使计算机能够从经验中学习,并将世界理解为嵌套的概念层次结构,计算机能够学习复杂的通过从更简单的概念构建它们的概念[ 20 ]。深度学习已经被应用到自然语言处理,计算机视觉和自动驾驶[ 2022 ]。数据挖掘是指从大型数据集中发现新的和有趣的模式的技术,例如识别在线交易记录中的频繁项目集[ 23 ]。许多数据挖掘技术是作为机器学习的一部分而开发的[ 24]。数据挖掘技术的应用包括社交网络中的推荐系统和群组检测。

地理空间人工智能(geoAI)是一门新兴科学,它利用高性能计算的进步将技术应用于AI,特别是机器学习(例如深度学习)和数据挖掘,以从空间大数据中提取有意义的信息。geoAI既是空间科学中的一个专业领域,因为必须使用特定的空间技术(包括GIS)来处理和分析空间数据,以及应用的空间数据科学,因为它专门用于应用AI技术来分析空间大数据。作为2017年ACM SIGSPATIAL地理信息系统进展国际会议的一部分举办的首届地理空间国际研讨会汇集了不同学科的科学家,包括地球科学家,计算机科学家,工程师,和企业家讨论地理数据挖掘和知识发现的深度学习的最新趋势。特色geoAI应用程序包括深度学习架构和历史地图中的特征识别算法[25 ]; 多传感器遥感图像分辨率增强[ 26 ]; 和识别OpenStreetMap的VGI属性中的语义相似性[ 27 ]。geoAI Workshop是最近将AI应用于空间数据的趋势的一个例子。例如,人工智能研究已在空间和时间数据库国际研讨会上发表,该研讨会的特点是空间,时间和时空数据管理及相关技术的研究。

GEoAI在环境流行病学中的机会

鉴于最近研究中展示的进步和能力,我们可以开始联系有关如何将geoAI技术专门应用于环境流行病学的点。为了确定我们可能暴露的因素并因此可能影响健康,环境流行病学家实施暴露评估的直接方法,例如生物监测(例如,在尿液中测量)和间接方法,例如暴露建模。曝光建模涉及使用各种数据输入(如环境测量)和统计方法(如土地利用回归和广义加性混合模型)开发模型来表示特定环境变量[ 28]]。与应用直接方法相比,暴露建模是评估特定大型研究人群中暴露分布的一种经济有效的方法[ 28 ]。曝光模型包括基于接近度的基本测量(例如,缓冲和测量距离)到更高级的建模,如克里金法[ 3 ]。在过去二十年中,空间科学对于流行病学研究的暴露建模至关重要,使环境流行病学家能够利用地理信息系统技术,利用地理变量(如地理编码地址)创建暴露模型并将其与健康结果数据联系起来,以研究这些因素的影响。作为显影疾病的危险空气污染如心血管疾病[ 2930 ]。

geoAI方法和大数据基础设施(如Spark和Hadoop)可用于解决围绕环境流行病学中的暴露建模的挑战 – 包括计算处理和时间的低效率(特别是当大数据与大型地理研究区域复合时)和数据相关影响空间和/或时间分辨率的约束。例如,先前的曝光建模工作通常与粗糙的空间分辨率相关联,影响曝光模型能够准确地估计个体级曝光的程度(即,曝光测量误差),以及可能导致的时间分辨率的限制。在与发展感兴趣的疾病相关的时间窗期间未能捕获暴露[ 28]。geoAI的进步为环境流行病学研究提供了准确,高分辨率的暴露建模,特别是关于处理大数据(空间和时间大;时空)的高性能计算,以及开发和应用机器和深度学习算法以及大数据基础设施提取最有意义和相关的输入信息,例如,预测特定时间和地点的环境因素的量。

最近用于环境暴露评估的geoAI实例是一种数据驱动方法,用于预测美国加利福尼亚州洛杉矶的颗粒物空气污染直径<2.5μm(PM 2.5)[ 4 ]。这项研究使用的儿科研究使用集成传感器监控系统(棱镜)数据和软件协调和整合中心(DSCIC)基础设施[ 431 ]。开发了一种使用机器学习和OpenStreetMap(OSM)空间大数据的空间数据挖掘方法,以便能够选择预测PM 2.5的最重要的OSM地理特征(例如,土地利用和道路)浓度。这种空间数据挖掘方法解决了空气污染暴露模型中关于相关“邻域”的空间和时间变化的重要问题,在该变化中,确定如何以及哪些因素影响预测暴露(空间非平稳性将在后面讨论)。使用OSM提供的数百万地理特征,创建PM 2.5暴露模型的算法首先确定了美国环境保护局(EPA)空气监测站,其在PM 2.5中表现出类似的时间模式浓度。该算法接下来训练随机森林模型(使用决策树进行分类和回归建模的流行机器学习方法)以生成每个OSM地理特征的相对重要性。这是通过确定所述地理上下文中执行,或者OSM特征和内什么距离(例如,百米与千米半径缓冲器)与空气监测站相关联(和它们的测量PM 2.5级),其特征在于一个类似的时间图案。最后,该算法使用地理背景训练第二个随机森林模型,并在空气监测站测量PM 2.5以预测PM 2.5未测量位置的浓度(即插值)。通过在算法的每个阶段中结合测量的PM 2.5浓度的时间性来最小化预测误差,尽管通过关于预测变量的时变信息可以改进建模。与使用反距离加权(一种常用的空间插值方法)相比,使用EPA空气监测站测量的PM 2.5水平作为黄金标准的模型预测性能显示出改进[ 4]]。通过这种创新方法,林等人。(2017)开发了一种灵活的基于空间数据挖掘的算法,无需先验选择曝光建模预测器,因为重要的预测因子可能取决于特定的研究区域和时间 – 基本上让数据决定什么是重要的曝光建模[ 4 ]。

未来发展方向

geoAI的应用,特别是机器学习和数据挖掘,应用于Lin等人描述的空气污染暴露模型。(2017)展示了环境流行病学暴露评估的几个关键优势[ 4]]。geoAI算法可以包含大量的时空大数据,这可以改善输出预测的空间和时间分辨率,具体取决于输入数据的空间和时间分辨率和/或降尺度方法,以从相对较粗糙的数据创建更精细的分辨率数据。除了实时生成的高分辨率大数据之外,现有的历史大数据,如1972年至今的Landsat卫星遥感图像,可以在geoAI框架内用于历史曝光建模 – 有利于研究慢性病长潜伏期。高性能计算功能促进了空间大数据的无缝使用和集成,

此外,geoAI工作流程和算法的灵活性可以解决在建模过程中经常被忽略的环境暴露(作为空间过程)的属性,例如空间非平稳性和各向异性[ 32 ]。当一个全局模型不适于用于说明空间过程中由于在,例如,空间过程及其预测之间的关联(即,漂移过空间)的局部变化[发生空间非平稳性3233 ]。林等人。(2017)通过使用OSM地理特征创建独特的地理背景来解决空间非平稳性,该空间监测站被分组为相似的时间模式。各向异性空间过程的特征是方向效应[ 32]例如,空气污染物的浓度可能受风速和风向的影响[ 34]。geoAI工作流程的灵活性自然允许使用和修改算法的可扩展性以适应更多大数据(例如,非常规数据集,例如卫星遥感以获得用于空气质量扩散建模的城市景观),不同类型的大数据,以及扩展建模到预测不同地理区域的不同环境暴露。这种灵活性的另一个方面包括能够在没有高度特征工程的情况下进行许多机器学习和数据挖掘技术,从而能够包含大量大数据,例如当直接测量不可用时更大量的替代变量。此外,

最终,GEOAI环境流行病学应用使我们更接近于实现提供高度分辨和更准确的环境暴露图片的目标,这些目标可以与其他有关健康结果,混杂因素等的相关信息相结合,调查特定环境暴露是否与流行病学研究中的特定结果相关。但是,与任何曝光建模一样,必须仔细审查数据质量和考虑数据成本。在林等人的背景下。(2017)研究[ 4虽然这种类型的数据驱动方法可以灵活地包含可以合并的空间大数据量,并允许数据确定模型输入,但空间数据科学家有责任评估数据质量并评估是否空间分辨率和其他数据属性对于手头的应用程序非常有用 – 以避免计算机科学中所谓的垃圾输入,垃圾输出(GIGO)。与数据质量相关的是数据驱动方法的重要性,以便与特定领域专业知识的需求相平衡。例如,如果某个特定变量是PM 2.5的已知预测变量 (不考虑时间和空间)未被选择作为包含在曝光建模中的数据驱动方法的一部分,这可能需要修改算法,评估输入数据等。最后,作为当前发展的领域,geoAI要求考虑到不同环境暴露的生物,化学和物理特性引入的复杂性,广泛的算法,包括流行病学,计算机科学,工程和统计学在内的多学科的专业知识,以建立如何进行环境暴露建模的最佳实践可以开发和应用的异构空间大数据,其特征在于不同的尺度,格式和质量。

结论

geoAI是一个新兴的跨学科科学领域,它利用空间科学,人工智能(特别是机器学习和深度学习),数据挖掘和高性能计算的创新,从空间大数据中发现知识。geoAI的部分根源来自空间数据科学,这是一个不断发展的领域,旨在帮助组织我们如何思考和处理空间大数据的处理和分析。最近的研究表明,geoAI的实际应用趋势是为了解决从特征识别到图像增强的现实问题。geoAI为环境流行病学提供了几个优势,特别是作为暴露评估的一部分的暴露建模,包括结合大量高空间和/或时间分辨率的空间大数据的能力; 关于时间和资源的计算效率; 灵活地适应空间(环境)过程的重要特征,如空间非平稳性; 和可扩展性,以模拟不同地理区域的不同环境暴露。未来用于环境流行病学的潜在GEOAI应用应利用跨学科方法来开发和建立暴露建模的严格和最佳实践,包括仔细考虑数据质量和特定领域的专业知识。和可扩展性,以模拟不同地理区域的不同环境暴露。未来用于环境流行病学的潜在GEOAI应用应利用跨学科方法来开发和建立暴露建模的严格和最佳实践,包括仔细考虑数据质量和特定领域的专业知识。和可扩展性,以模拟不同地理区域的不同环境暴露。未来用于环境流行病学的潜在GEOAI应用应利用跨学科方法来开发和建立暴露建模的严格和最佳实践,包括仔细考虑数据质量和特定领域的专业知识。

转载自:https://ehjournal.biomedcentral.com/articles/10.1186/s12940-018-0386-x#Abs1

Leave a Reply

Your email address will not be published. Required fields are marked *