AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

William McKnight 关于数据平台和创建现代数据架构的见解

  • 2018-10-28
  • 本文字数:999 字

    阅读完需:约 3 分钟

在上周举行的数据架构 2018 年峰会上,William McKnight 就使用不同的数据平台创建现代数据架构做了主旨演讲

他以讨论组织的数据成熟度和业务成功之间的高度相关性开始了他的演讲。组织的数据架构越成熟,业务就越成功。成熟度较低的组织往往会把数据分散于不同的信息孤岛中。他分享了一些来自 2018 年“互联网分钟(Internet Minute)”中所发生的事情的统计数据,在互联网上每分钟发送 1 亿 8700 万封电子邮件和 1800 万条短信,进行 370 万次搜索查询等等。

人工智能(AI)是一股颠覆性的力量,而数据则是这场革命的基石。行业中出现了新的数据集:生物数据(Bio Data)。如果将生物数据和环境数据(如位置等)结合在一起,那么你将拥有进行数据分析的所有信息。

他谈到了数据培养和像数据仓库(data warehouse)和数据湖(Data Lake)这样的解决方案如何帮助完成数据工作。数据架构师也需要在 HDFS 和云存储之间做出选择。HDFS 具有更好的查询性能,而云存储的扩展性、持久性和可用性更好,并且成本更低。

通过比较关系数据库和 nosql 数据库的数据大小和工作负载复杂性,McKnight 讨论了即可使用的大数据平台的选择。

另外,他也谈到了 NewSQL 数据库,该数据库可扩展、兼容 ACID 并支持分片。这些数据库正被用于资本市场数据输入、金融交易、电信记录流和欺诈检测。

数据库的云部署提供了一些好处,包括按需和自助服务数据管理、广泛的网络访问、资源汇集、快速弹性和可测量的服务。

传统的 ETL 技术不足以用于企业范围内运行的数据平台。有各种各样的数据源,并且数据是实时流式传输的。数据架构应该考虑这些需求的流处理

企业数据虚拟化提供了对所有结构化和半结构化数据持续及时的访问,这些数据来自组织内不同的数据源,如数据仓库、市场、多维数据集、操作数据存储(operational data stores,简称 ODS)、事务源和文件系统。

他建议,数据专业人员在这次数据架构转型旅程中进行他们的挑战,应该做好进行长期战役的准备,可能会失败几次才能最终获得成功。将您的数据体系结构工作与应用程序预算和路线图项目结合起来,以便在数据架构实施方面取得进展。

McKnight 对其演讲进行了总结,建议数据专业人员在需要高性能的数据管理解决方案的地方考虑使用内存数据库,并考虑未来使用 GPU 数据库和混合数据库。

阅读英文原文: William McKnight on Data Platforms and Creating a Modern Data Architecture

感谢冬雨对本文的审校。

2018-10-28 04:081282
用户头像

发布了 199 篇内容, 共 88.4 次阅读, 收获喜欢 295 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

Java开发之如何连接Redis

@零度

redis JAVA开发

极光笔记|百亿级KV存储在极光的运维实践之路

极光JIGUANG

六个数字化意识和习惯

明道云

最受欢迎的5个React动画库

编程江湖

React

【12月11日】真香现场,带你玩转 EKS!

亚马逊云科技 (Amazon Web Services)

人工智能 Meetup EKS

【云小课】CDN第5课 CDN入门之—我的网站可以用CDN加速吗?

华为云开发者联盟

网站 CDN 网络 CDN加速 华为云CDN

JDK 动态代理与 CGLIB 动态代理,它俩真的不一样

华为云开发者联盟

jdk 动态代理 spring aop JDK 动态代理 CGLIB 动态代理

Springboot & RabbitMQ 延时队列的使用

编程江湖

大数据 消息中间件

恒源云(GPUSHARE)_分享一个技巧!CV训练时容易忽视的数据标签问题

恒源云

深度学习 算法 CV

初识JVM的内存结构

Ayue、

技术专题合集

模块五作业

危险游戏

架构实战营

Linux一学就会之Centos8用户管理

学神来啦

Linux centos 运维 linux云计算

12 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

前端开发面试题分享,看一下是不是你需要的

@零度

大前端 面试题

带你了解Typescript的14个基础语法

华为云开发者联盟

typescript 数组 开发 js 语法

常用项目部署方案和区别

进击的梦清

DevOps 运维 项目 部署与维护

☕【并发技术系列】「多线程并发编程」技术体系和并发模型的基础探究(夯实基础)

码界西柚

Java 并发编程 多线程 多进程 12月日更

dart系列之:还在为编码解码而烦恼吗?用dart试试

程序那些事

flutter dart flutter 面向切面 aop 程序那些事 12月日更

Go语言学习查缺补漏ing Day1

恒生LIGHT云社区

编程语言 Go 语言

运维监控场景下,如何从OpenTSDB迁移到TDengine

TDengine

数据库 tdengine

Spark SQL之RDD转换DataFrame的方法

@零度

大数据 RDD DataFrame spark SQL

工具 | PG 集群复制管理工具 repmgr

RadonDB

数据库 postgresql RadonDB

推开“微前端”的门

百度Geek说

微服务 大前端

大咖联袂发布!《慧技术·惠金融——2022金融科技趋势研究报告》开放下载

恒生LIGHT云社区

金融科技 行业趋势 行业大会

恒源云(GPUSHARE)_CIFAR-10数据集实战:构建ResNet18神经网络

恒源云

深度学习 算法

Rust 元宇宙 从零开始构建

Miracle

rust 元宇宙

Hutool中那些常用的工具类和方法

编程江湖

JAVA开发 java工具包

web技术分享| AudioContext 实现音频可视化

anyRTC开发者

Web 音视频 WebRTC 音频可视化 AudioContext

周边生态|RoP 重磅发布 0.2.0 版本: 架构全新升级,消息准确性达 100%

Apache Pulsar

Java 开源 架构 云原生 Apache Pulsar

MySQL探秘(二):SQL语句执行过程详解

程序员历小冰

MySQL 28天写作 12月日更

如何在Flutter应用程序中创建不同的渐变 【Flutter专题14】

坚果

flutter 28天写作 12月日更

William McKnight关于数据平台和创建现代数据架构的见解_服务革新_Srini Penchikala_InfoQ精选文章