速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

通过无服务器架构实现 Amazon Neptune 图数据库数据分析可视化

  • 2019-09-18
  • 本文字数:9291 字

    阅读完需:约 30 分钟

通过无服务器架构实现Amazon Neptune图数据库数据分析可视化

Amazon Neptune 图数据库自从 2018 年 5 月 30 日正式推出以来,已经一年有余,现已经扩展到全球 12 个区域,同时具有高可用性,并提供只读副本、时间点恢复、到 Amazon S3 的持续备份以及跨可用区的复制,最近新增数据库克隆功能,可以快速而经济高效地创建 Neptune 数据库集群的克隆,特别是在不影响生产环境的前提下,首次创建时只需要很少的额外空间。


Amazon Neptune 是一项快速、可靠且完全托管的图形数据库服务,可帮助用户轻松构建和运行使用高度关联数据集的应用程序。Amazon Neptune 的核心是专门构建的高性能图数据库引擎,它进行了优化以存储数十亿个关系并将图查询延迟降低到毫秒级。 Amazon Neptune 支持常见的图模型 Property Graph 和 W3C 的 RDF 及其关联的查询语言 Apache TinkerPop Gremlin 3.4.1 和 SPARQL 1.1,Neptune 支持大多数图的应用场景,例如社交网络、推荐引擎、欺诈检测、知识图谱、生命科学以及网络/IT 运营。


目前,官方并未提供前端展现工具或服务,来实现对 Neptune 图数据库数据分析的可视化,下面我们将结合基于浏览器的 VIS.js 动态可视化库,通过 Serverless 方式,采用 Amazon S3 静态网站托管与 Amazon API Gateway、AWS Lambda 服务,来实现对 Neptune 图数据库数据分析的可视化。

(一) Neptune 图数据库可视化方案推荐

用户可以利用 AWS APN 合作伙伴的解决方案,来实现对 Amazon Neptune 数据分析的可视化,大多数方案目前都已经在 AWS Marketplace 中以 AMI 形式提供,AWS 在该领域的合作伙伴有:


  • Tom Sawyer Software

  • Metaphactory

  • Keylines by Cambridge Intelligence

  • 除了上述的商业化解决方案以外,还有 3 个开源解决方案可供参考:

  • GraphExp open source visualization tool

  • js javascript library by D3JS.org

  • js open source library by VISJS.org

  • 用户可以使用这些可视化库在 Amazon Neptune 之上构建自己的应用程序和产品。在本文的实验部分,我们将重点介绍使用 VIS.js 在 Amazon Neptune 中进行数据可视化的前端展现。VIS.js 是一个用于可视化图数据的 Javascript 库,它具有各种组件,如 DataSet,Timeline,Graph2D,Graph3D,Network 等,用各种图形方式来进行图数据库数据分析的可视化。

(二) 无服务器化 Neptune 图数据库可视化参考架构


如上图所示,主要技术内容说明如下:


  • 在 AWS 俄勒冈区域创建 Neptune 图数据库集群与 EC2 实例

  • 登录到 EC2 加载数据到 Neptune 图数据库

  • 创建和配置 Lambda 函数

  • 创建和配置 API Gateway – Proxy API

  • 在 AWS 北京区域部署基于 S3 桶的静态网站,远程调用 API Gateway 终端节点

(三) 创建 Neptune 图数据库集群并加载数据


$ aws configure –profile bjs ### AWS 北京区域


AWS Access Key ID [None]: AKI***************


AWS Secret Access Key [None]: tr7*********************


Default region name [None]: cn-north-1


Default output format [None]: json


$ aws configure –profile pdx ### AWS 俄勒冈区域


AWS Access Key ID [None]: AKI***************


AWS Secret Access Key [None]: 14U*********************


Default region name [None]: us-west-2


Default output format [None]: json


  • 加载 S3 数据到 Neptune


  1. 同步测试数据到你的 S3 桶

  2. $ aws s3 sync /home/ec2-user/sampledata s3://你的 S3 桶 –profile pdx

  3. 修改数据加载脚本

  4. $ cat /home/ec2-user/load-twitter.sh


curl -X POST \


-H ‘Content-Type: application/json’ \


https://你的Neptune集群终端节点:8182/loader -d ‘


{


“source” : “s3://你的 S3 桶/neptune/csv/twitter/”,


“format” : “csv”,


“iamRoleArn” : “你的 IAM Role ARN”,


“region” : “us-west-2”,


“failOnError” : “FALSE”


}’


  1. 加载数据到 Neptune

  2. $ sh /home/ec2-user/load-twitter.sh


{


“status” : “200 OK”,


“payload” : {


“loadId” : “63afaf9e-76aa-4a7a-8485-5a27cef0e97f”


}


  1. 查询数据加载状态

  2. $ curl -G ‘https://你的Neptune集群终端节点:8182/loader/63afaf9e-76aa-4a7a-8485-5a27cef0e97f’


{


“status” : “200 OK”,


“payload” : {


“feedCount” : [


{


“LOAD_COMPLETED” : 7


}


],


“overallStatus” : {


“fullUri” : “s3://你的 S3 桶/neptune/csv/twitter/”,


“runNumber” : 1,


“retryNumber” : 0,


“status” : “LOAD_COMPLETED”,


“totalTimeSpent” : 18,


“startTime” : 1566271487,


“totalRecords” : 47400,


“totalDuplicates” : 914,


“parsingErrors” : 0,


“datatypeMismatchErrors” : 0,


“insertErrors” : 0


}


}

(四) 创建并配置 AWS Lambda 函数

  • 创建 AWS Lambda 函数执行所需要的 Role

  • $ aws iam create-role –path /service-role/ –role-name lambda-vpc-access-role –assume-role-policy-document ‘{


“Version”: “2012-10-17”,


“Statement”: [


{


“Effect”: “Allow”,


“Principal”: {


“Service”: “lambda.amazonaws.com


},


“Action”: “sts:AssumeRole”


}


]


}’ –description “VPC Access role for lambda function” –profile pdx


  • 为 Role 增加权限

  • $ aws iam attach-role-policy –role-name lambda-vpc-access-role –policy-arn arn:aws:iam::aws:policy/service-role/AWSLambdaENIManagementAccess –profile pdx

  • 创建 AWS Lambda 函数,把红色字体更换成自己的内容,有关子网组、安全组、环境变量可以在控制台上调整,建议阅读 Lambda 源码,了解 Gremlin 查询

  • $ aws lambda create-function –function-name mygremlin01 \


–role “arn:aws:iam::你的 12 位数字帐号:role/service-role/lambda-vpc-access-role” \


–runtime nodejs8.10 –handler indexLambda.handler \


–description “Lambda function to make gremlin calls to Amazon Neptune” \


–timeout 120 –memory-size 256 –publish \


–vpc-config SubnetIds=subnet-8afde9ec,subnet-ac487fe4,subnet-9a1adcc0,SecurityGroupIds=sg-4bc9e337 \


–zip-file fileb:///home/ec2-user/amazon-neptune-samples/gremlin/visjs-neptune/lambdapackage.zip \


–environment Variables=”{NEPTUNE_CLUSTER_ENDPOINT=mygdbcluster01.cluster-crqg2j5cykhg.us-west-2.neptune.amazonaws.com,NEPTUNE_PORT=8182}” –profile pdx

(五) 创建并配置 Amazon API Gateway – Proxy API

  • 使用 AWS CLI 中的以下命令创建 Restful API

  • $ aws apigateway create-rest-api –name lambda-neptune-proxy-api –description “API Proxy for AWS Lambda function in VPC accessing Amazon Neptune” –profile pdx


{


“apiKeySource”: “HEADER”,


“description”: “API Proxy for AWS Lambda function in VPC accessing Amazon Neptune”,


“createdDate”: 1566278703,


“endpointConfiguration”: {


“types”: [


“EDGE”


]


},


“id”: “m68yv27u24“,


“name”: “lambda-neptune-proxy-api”


}


  • 请注意前面输出中“id”字段的值,并将其用作下面的值 $ aws apigateway get-resources –rest-api-id m68yv27u24 –profile pdx


{


“items”: [


{


“path”: “/”,


“id”: “hpbz6o3ytf”


}


]


}


  • 请注意前面输出中“id”字段的值,并将其用作下面的值,下面的命令将在 API 的根结构下创建一个资源 $ aws apigateway create-resource –rest-api-id m68yv27u24 –parent-id hpbz6o3ytf –path-part {proxy+} –profile pdx


{


“path”: “/{proxy+}”,


“pathPart”: “{proxy+}”,


“id”: “s3iu93“,


“parentId”: “hpbz6o3ytf”


}


  • 请注意输出中“id”字段的值,并在下面的命令中将其用作 $ aws apigateway put-method –rest-api-id m68yv27u24 –resource-id s3iu93 –http-method ANY \


–authorization-type NONE –profile pdx


{


“apiKeyRequired”: false,


“httpMethod”: “ANY”,


“authorizationType”: “NONE”


}


  • 使用从之前命令获得的相应值,创建 API 方法的集成

  • $ aws apigateway put-integration –rest-api-id m68yv27u24 \


–resource-id s3iu93 –http-method ANY –type AWS_PROXY \


–integration-http-method POST \


–uri arn:aws:apigateway:us-west-2:lambda:path/2015-03-31/functions/arn:aws:lambda:us-west-2:你的 12 位数字帐号:function:mygremlin01/invocations –profile pdx


{


“passthroughBehavior”: “WHEN_NO_MATCH”,


“timeoutInMillis”: 29000,


“uri”: “arn:aws:apigateway:us-west-2:lambda:path/2015-03-31/functions/arn:aws:lambda:us-west-2:你的 12 位数字帐号:function:mygremlin01/invocations”,


“httpMethod”: “POST”,


“cacheNamespace”: “s3iu93”,


“type”: “AWS_PROXY”,


“cacheKeyParameters”: []


}


  • 使用下面的命令部署 API

  • $ aws apigateway create-deployment –rest-api-id m68yv27u24 –stage-name test –profile pdx


{


“id”: “n0ro9h”,


“createdDate”: 1566279566


}


  • 执行以下命令以向 AWS Lambda 函数添加 API 网关订阅/权限

  • $ aws lambda add-permission –function-name mygremlin01 \


–statement-id myapigw01 –action lambda:* \


–principal apigateway.amazonaws.com \


–source-arn arn:aws:execute-api:us-west-2:你的 12 位数字帐号:m68yv27u24///* –profile pdx


{


“Statement”: “{\”Sid\”:\”myapigw01\”,\”Effect\”:\”Allow\”,\”Principal\”:{\”Service\”:\”apigateway.amazonaws.com\”},\”Action\”:\”lambda:\”,\”Resource\”:\”arn:aws:lambda:us-west-2:你的 12 位数字帐号:function:mygremlin01\”,\”Condition\”:{\”ArnLike\”:{\”AWS:SourceArn\”:\”arn:aws:execute-api:us-west-2:你的 12 位数字帐号:m68yv27u24///\”}}}”


}



(六) 配置 Amazon S3 存储桶以托管静态网站

  • 在 AWS 北京区域创建 S3 存储桶

  • $ aws s3api create-bucket –bucket myneptune77 –region cn-north-1 –create-bucket-configuration LocationConstraint=cn-north-1 –profile bjs

  • 配置 S3 存储桶静态网站托管功能

  • $ aws s3api put-bucket-website –bucket myneptune77 –website-configuration ‘{


“IndexDocument”: {


“Suffix”: “index.html”


},


“ErrorDocument”: {


“Key”: “error.html”


}


}’ –profile bjs


  • 修改 html 文件第 57 行的终端节点

  • PROXY_API_URL 为 你部署的 API Gateway 终端节点的 URL


$ vi /home/ec2-user/s3webhost/index.html


var PROXY_API_URL = “https://m68yv27u24.execute-api.us-west-2.amazonaws.com/test”;




选中人名,点击 Go 按钮,出现选中的人名



点击人名,将查询他的好友及所发的 Twitter 并进行可视化展现:


  1. 查询逻辑通过 js 封装在 AWS Lambda 中,使用 Gremlim 语法直接查 Neptune 库

  2. 前端页面每次点击都会通过 API Gateway 终端节点去调 Lambda 函数来读库并返回 JSON 格式数据

  3. 前端解析 JSON 数据,并通过 js 进行数据可视化展现


点击人名或 Twitter 信息,都将进行更深层次的数据可视化展现


(七) 总结及参考资源

综上所述,用户可以充分利用 AWS 的云原生服务,Amazon API Gateway 与 AWS Lambda,并结合 S3 存储桶的静态网站托管功能,即使 AWS 中国区域还未提供 Neptune 图数据库的托管服务,用户也能在中国境内非常方便的去远程调用 Neptune 图数据库服务,并轻松实现对 Neptune 图数据库的数据分析可视化展现。


在本次演示中,除了 Neptune 图数据库与 EC2 实例的成本之外,其他服务的使用成本均在免费额度之内,可以忽略不计。


[参考资源]


Amazon Neptune 文档中心


https://docs.aws.amazon.com/zh_cn/neptune/latest/userguide/intro.html


Amazon Neptune 开发者资源


https://aws.amazon.com/cn/neptune/developer-resources/


Amazon Neptune 参考架构


https://github.com/aws-samples/aws-dbs-refarch-graph


Amazon Neptune 参考样例


https://github.com/aws-samples/amazon-neptune-samples


Amazon Neptune 数据导入


https://github.com/awslabs/amazon-neptune-tools


Amazon Neptune 图可视化


https://github.com/bricaud/graphexp


SQL2Gremlin


http://sql2gremlin.com/


PRACTICAL GREMLIN: An Apache TinkerPop Tutoria


http://www.kelvinlawrence.net/book/Gremlin-Graph-Guide.html


作者介绍:


蒋华


AWS APN 合作伙伴解决方案架构师,主要负责 AWS (中国)合作伙伴的技术支持工作,同时致力于 AWS 云服务在国内的应用及推广,并在关系型数据库服务、存储服务、分析服务、 HA/DR 及云端应用迁移方面有着丰富的设计和实战经验。加入 AWS 之前,曾在 IBM(中国) 工作 12 年,历任数据库售前工程师、UNIX 服务器资深售前工程师及解决方案架构师,熟悉传统企业 IT 架构、私有云及混合云部署,在数据库、数据仓库、高可用容灾及企业应用架构等方面有多年实践经验。


本文转载自 AWS 博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/visualization-of-amazon-neptune-graph-database-data-analysis-through-a-serverless-architecture/


2019-09-18 18:09875
用户头像

发布了 1850 篇内容, 共 119.0 次阅读, 收获喜欢 78 次。

关注

评论

发布
暂无评论
发现更多内容

金融从业人员获取公开数据必备的126个网址

八爪鱼采集器︱RPA机器人

爬虫 采集

八爪鱼数据采集在国央企的主要应用场景:产业态势分析

八爪鱼采集器︱RPA机器人

爬虫 采集

与chatGPT对话 | 如何用八爪鱼采集招投标数据进行竞争情报分析

八爪鱼采集器︱RPA机器人

爬虫 采集

如何高效使用索引——10个索引优化最佳指南

Chat2DB

MySQL 数据库 sql 开源 AI

深度解析淘宝商品详情API返回值的业务价值

技术冰糖葫芦

API 接口 API 文档 API 测试 pinduoduo API API 性能测试

人工智能加速打破“设备壁垒”,系统安全护航“数字中国”

Geek_2d6073

Abaqus可以做流体仿真吗?流固耦合项目介绍

思茂信息

abaqus 有限元技术 流固耦合

浅谈 Nginx 头部配置:add_header 及其常见功能实践

inBuilder低代码平台

nginx 代理 Nginx配置

望繁信科技成功签约国显科技 流程挖掘助力制造业智造未来

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 望繁信科技

高清图解28个高并发之数据结构/数据结构场景匹配技巧分析(高并发精通篇一)

肖哥弹架构

Java 数据结构

包材推荐中的算法应用|得物技术

得物技术

算法

在2024 VDC,听一曲“蓝心智能”的江河协奏

脑极体

AI

淘宝 API:关键词搜商品列表接口,助力商家按价格销量排序分析数据

tbapi

淘宝API接口 淘宝商品列表数据接口 淘宝商品数据采集 淘宝商品列表数据API

面试官最反感这样的简历!

王磊

IBM发布最新云威胁态势报告:凭证盗窃仍是主要攻击手段,企业亟需强健的云安全框架

财见

LeetCode题解:2347. 最好的扑克手牌,哈希表,详细注释

Lee Chen

程序员副业赚钱实操指南

陆通

南京中医药大学与和鲸科技签署101数智领航计划,加速“医学+人工智能”交叉学科人才培养

ModelWhale

人工智能 大数据 人才培养 高等教育 南京中医药大学

4个实用的数据同步方法

RestCloud

数据同步 ETL 数据集成 ELT CDC

2024百度云智大会|百度大模型内容安全合规探索与实践

百度安全

通过观测云 DataKit Extension 接入 AWS Lambda 最佳实践

观测云

aws lambda

抖音商品 SKU 数据接口:为电商数据分析注入新活力

tbapi

抖音商品sku接口 抖音接口 抖音sku接口 抖音sku数据接口

开发体育直播平台的成本差异大?如何用源码快速上线省70%!

软件开发-梦幻运营部

开放式数字商业平台赋能产业数字化转型

快乐非自愿限量之名

低代码 数字化

Canalys:软通动力旗下PC品牌出货量年增86%,居国内市场首位

财见

云MES适用于哪些行业?

万界星空科技

制造业 mes 云 原生云 CTO 云mes 万界星空科技mes

不是 PHP 不行了,而是 MySQL 数据库扛不住啊

快乐非自愿限量之名

php MySQL 数据库

免费简洁的绘图工具:Pollyoyo

Byte

流程图 PlantUML 时序图 drawio Mermaid

前端开发个人职业发展的四个阶段,你处于哪里?

不在线第一只蜗牛

Java 前端 前端框架

小米回应「网友恶搞 AI 雷军配音骂人」;Hailuo AI 上线图片生成视频功能丨 RTE 开发者日报

声网

软通动力荣登"2024北京民营企业百强"等多项榜单

财见

通过无服务器架构实现Amazon Neptune图数据库数据分析可视化_大数据_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章