写点什么

关于实时交通系统设计的 7 个问题

2014 年 6 月 13 日

近期,由 InfoQ 组织的 Jam 72 小时在线脑力风暴活动顺利举行,本次活动主要围绕交通、环境等跟人们生活息息相关的话题进行脑力风暴,试图寻找改善这些问题的 Idea。在这次讨论中,“实时交通信息平台和智慧交通信息平台”话题备受关注,InfoQ 特邀专家高德交通事业部总经理董振宁、百度主任架构师张绍文等在讨论中发表了精彩的观点。下面是对讨论内容的提炼:

问: 地图数据来源有哪些?

董振宁:高德的数据来源有出租车、使用 AMap 的导航数据、众包回传数据、“两客一危”数据等。

问: 如何甄别出高质量的数据?当前,移动互联网普及,车联网、物联网、各种智能终端联网,数据来源迅速扩展,带来种类多样,质量良莠不齐的各种数据。怎样才能甄别出真正的高质量,应用对口的数据?

张绍文:关于定位轨迹的数据质量问题,我们是通过以下两个思路来解决: 1. 通过地理信息 + 交通流领域知识来推算轨迹实际走的路线, 比如路网 + 最短路线 / 最匹配时间 +HMM 等;2. 通过群体轨迹数据类聚来增加数据稠密度以及抗噪能力,比如群体轨迹推算路段间转移概率 for HMM、动态道路速度匹配等。抽象的来说,单纯从某一条位置轨迹所呈现的信息来看,信息量是不够的。 需要通过增加背景 / 领域知识,以及数据类聚的方式,以提高单条轨迹的信息量,进而起到质量提纯、纠正的目的。

问: 海量数据的实时处理架构如何设计?

张绍文:我们的计算模型,分“批处理计算” 和 “流式计算”。 对于时效性不高,数据规模较大,关注数据吞吐量的,我们会用批处理计算,比如历史轨迹挖掘。 对于时效性高的部分,我们会用流式计算,比如实时交通信息。批处理计算集群,我们用的是 hadoop; 流式计算集群,使用公司自主开发的流式计算系统 dstream,这个系统具有低延迟高吞吐、高可靠性和高可扩展性等特点,时延在秒级,已经稳定支撑了每天数十亿流量,近十 T 的数据规模。

董振宁:面对越来越多的海量数据,实时交通信息处理的能力和效率非常关键,特别是要做到实时快速更新(比如 1 分钟)。所以必须要求系统能容易水平扩展,提高其并发性,能处理大量的数据。每个处理环节尽量做成集群服务方式,通过增加集群的节点来提高其处理能力,从而保证全国海量数据的实时处理。

问:如何进行故障恢复和透明切换?

董振宁:故障恢复是很重要的,业界有很多成熟方案借鉴,利用 zookeeper 或者事务性分布式存储服务来确定主从。简而言之,就是实现分布式锁,多个节点同时竞争一个分布式锁,成功者为主,提供服务,一旦该服务宕机,就会失去锁的占有权,其他从节点提升为主,继续提供服务。但是要考虑上下游业务如何了解服务的变化,对于企业内网而言,可以考虑使用 Kafka 等分布式消息队列,解除上下游与业务的直接耦合,达到透明切换的目标。

问: 如何应对数据高峰?

董振宁:在上下班高峰期等数据量暴涨时,数据处理会出现瞬时的峰值。我们在处理时通过数据负载均衡,保证每个节点的处理能力均衡,同时有热备节点,当数据量超过极限时,会启动备用节点承担一部分数据的处理。

问:水平扩展的关键是不是在于处理系统的架构设计上要充分考虑可扩展性,水平扩展是否会有上限?

董振宁:在数据源接入时,按照经纬度坐标将 GPS 点分配到不同的自定义网格,处理时按照网格为单位进行交通信息处理,每个节点均衡处理一系列网格,这样集群就可以动态水平扩展。水平扩展从理论上是没有上限的,但是考虑到成本,需要充分考虑每个节点的处理能力和均衡性,随着数据量的增加需要增加节点。

问: LBS 大数据对地图厂商的挑战?

张绍文:随着 LBS 数据的迅猛发展,LBS 大数据预计在未来几年内会把整个地图和交通领域带入一个新的高度。比如,以交通流为例,之前学术界都是在研究各种各样的复杂经验模型,希望用各种领域经验模型来细致刻画现实世界各种复杂情况,但是效果很一般。 随着交通数据可获取渠道越来越多,数据量越来越大,现在无论是学术界还是工业界,都开始转向大数据方向,用大数据的相关关系等信息来代替复杂的经验模型,不但简化了模型复杂度,效果还比之前更好。这种转变,对地图厂商最大的挑战,就是技术和人才的挑战。大数据时代之前,传统厂商的优势更多在于自己的领域经验,人才也更多是这个专业领域的人才; 而在大数据时代,领域经验和技术会被弱化,人才需求逐渐更侧重于大数据架构、数据挖掘、机器学习相关的人才。这样传统厂商的优势就会逐渐被弱化,甚至之前优势会变成阻碍革新的劣势。

董振宁:LBS 数据量的快速增长,对地图厂商的快速更新机制要求很高。我们现在通过众包方式可以快速获得大量的 POI 及其对应的附属信息,通过地图的自动快速更新机制,就能保证地图的鲜度。


感谢郭蕾对本文的审校,崔康对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014 年 6 月 13 日 03:242550

评论

发布
暂无评论
  • 第 208 讲 | 陈阳:科创板投资,未来哪些行业受益最大?

    设立科创板,目的就是为新兴经济提供方便的融资渠道,以市场的方式来培育国内新兴技术产业的发展。

    2019 年 4 月 19 日

  • 行业视角:产品经理眼中的人工智能

    你理解人工智能,知道人工智能的产业发展现状如何吗?人工智能产品经理的人才结构又是怎样的呢?

    2020 年 12 月 14 日

  • 仇应俊谈阿里云 OTS

    11月9号的阿里云开发者大会上。来自与阿里的仇应俊分享了阿里云OTS(开放结构化数据服务的技术实践)。

  • Spark,Storm 和实时分析

    Hadoop绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的Hadoop已不能满足实时分析的要求。Spark,Storm和Lambda架构可以帮助弥补批处理和基于事件的差距.

  • 姜小凡:物理世界的数据越来越有价值

    进入二月下旬,北京迎来一轮漫长的雾霾天气,京东上许多空气净化器脱销,淘宝上3M口罩涨价不少,微博、微信上也流传着各种应对PM2.5的偏方。在未来的日子,我们不得不继续PM2.5问题。2013年,姜小凡和他的团队开发了一款成本200多元的PM2.5检测设备——PAM(便携式个人空气质量监测仪)。PAM最大的特点是成本低。同时,PAM考虑了地理信息、气候因素,并且通过机器学习的方式处理这些数据,建立模型,模型进一步修正数据,保证数据精确性。

  • 地图导航技术将从手机回归汽车

    传统汽车导航正在沦陷,更多车主转而使用手机导航。但只是权宜之计,手机存在硬件能力弱、使用不安全、数据不完善等先天性不足,而车载导航则还潜藏着很大的发展潜力。随着能力提升,用户会逐渐从手机再次回归车机。

  • AI 与物联网架构:从智能引擎到物联网平台

    当我们在说大数据技术的时候,说的可能是几种差别很大的技术。那么,这些技术都是什么呢?

    2020 年 2 月 5 日

  • 反驳马斯克:自动驾驶离不开激光雷达,图像技术足够成熟至少还要十年

    全面了解对于自动驾驶至关重要的高精地图从生产制作到实践部署的过程,以及对于自动驾驶生态的看法。

  • JUST 技术:基于轨迹数据的人口流向分析技术

    本文以抗击新冠肺炎疫情中的应用为例,给出了一套完整的基于轨迹数据对人口流向进行精确分析的技术方案。在疫情防控初期,各地的健康信息填报系统还不够完善,无法依据用户主动上报的位置信息实现精准的定位和追踪。

  • 5G 时代,如何处理超大规模物联网数据

    5G即将走入我们的生活,这也为物联网的实现提供了必须的基础。

    2019 年 7 月 19 日

  • 从零到一构建基于对抗性训练的广告流量反作弊系统

    演讲嘉宾硕士毕业于英国伯明翰大学,就读高级计算机科学专业,毕业获得英国一等荣誉学位;作为流量反作弊项目算法负责人,负责设计与研发虚假流量查杀系统,自主研发多通道3D Transformer 深度学习模型大大提升识别行为异常的能力。自主研发自我学习式查杀系统,使得系统能通过对抗性学习不断提升性能。内容介绍近些年,国内移动网络广告行业取得了爆发性的发展。面对这7000亿元的庞大市场,大量广告刷量黑产团伙也嗅到了这庞大利润,不断涌入广告市场进行大肆破话。据数据统计2018年虚假广告流量占总广告流量30%,广告主一年损失约260亿人民币。而对抗黑产,反作弊的路上也充满了荆棘。随着反作弊团队打击力度加大,黑产作案手段与技术也不断地提高,有时候为了迷惑广告主,甚至会在业务表象数据上模拟真实用户,达到以假乱真的效果。面对黑产不断地演进,反作弊团队不能墨守成规,必须灵活应对黑产不断变换“姿势”地一波又一波的攻击。这是一个攻防的过程,也是反作弊团队对抗性学习的过程。为此我们研发出一套可对抗性学习提升的广告流量反作弊查杀系统。对于广告黑产不断变换姿态攻击广告平台,不断查找漏洞试图避开反作弊团队布下的层层防御设施,反作弊团队不能一直被动防守,要主动出击,主动寻找黑产的作弊方式。通过我们“查”模块,系统主动发现大量聚集且疑似刷量的行为,通过规则,情报与人工筛选锁定作案方式,并将相关信息记录至样本库当中。“杀”模块将“查”模块检测出的新的作弊方式融入模型训练当中。使我们的模型更全面地识别目前刷量行为。只要我们反作弊系统一直有流量进来,我们就能探测新的广告作弊方式,增强我们对虚假流量的识别能力,最终整个系统形成一个自我学习的良好闭环。

    2019 年 7 月 26 日

  • 如何给企业讲一个“降本”的故事?

    你的客户企业到底在关心怎样的成本?你知道该怎么讲降本的故事吗?

    2020 年 9 月 14 日

  • 大数据自助平台的思考与建设丨 ArchSummit

    平台,业务由刚开始的打车业务,扩展到涵盖了打车、支付、送餐、地图、物流、生鲜等诸多领域。如此快速变化的业务发展给数据工程团队带来了很多挑战,上游的数据快速增长和变化,数据团队需要快速支持数据流的变化。

  • AI 技术蓬勃发展下滴滴在地图系统的有益探索和架构演进

    滴滴的地图数据的准确性和时效性、基于地图的路径规划、预估到达时间等服务是顺畅出行的基础。

  • 车、人、路如何在全域大数据时代融会贯通

    4月20日,UBDC全域大数据峰会2016在北京举办。会议以“无数据不智能”为主题,除主论坛之外,分别设立了“数据化运营”、“数据营销”、“IOT和O2O数据应用”、“数据开放与发展纵横谈”四个平行分论坛。高德地图行业解决方案中心总经理赵琳在“无数据不智能”的主论坛上, 分享了交通大数据的应用情况,以及高德地图是如何用交通大数据的思路去考虑交通出行的。

  • 智能汽车事业部变更业务方向?百度回应:消息不实

    北京时间7月22日,有媒体报道称:百度智能汽车事业部(L3)部门在近期更换业务方向,从聚焦高速场景转向自主泊车。

  • 业内首发车道级导航背后——详解高精定位技术演进与场景应用

    本文将结合高德地图在车道级导航及自动驾驶等领域的工作,分享我们对于高精度定位技术演进的思考,以及在高精定位实际落地应用中的一些实践。

  • 美团外卖单日完成 3000 万订单背后的“超脑”武器

    美团配送智能调度系统是针对即时配送业务超大数据量、实时调度场景的新一代柔性调度系统,可以说,它是美团“超脑”的中枢神经。

发现更多内容

AlibabaP8架构师整理,283页的Java核心资料pdf文档,学会后月薪4W没问题

Java架构之路

Java 程序员 架构 面试 编程语言

关于代码重构的灵魂三问:是什么?为什么?怎么做?

华为云开发者社区

重构 代码 代码重构

iOS面试基础知识 (三)

iOSer

ios 面试题 大厂面试 iOS面试 ios开发

13.3流处理计算:Flink,Storm,Spark Streaming

张荣召

13.2大数据计算引擎Spark(下)

张荣召

敏捷规划,让你做一个有计划的开发人

华为云开发者社区

敏捷 开发 规划

13.6网页排名算法PageRank

张荣召

未来30年推动全球经济增长的主要动力是数据资产

CECBC区块链专委会

区块链 移动互联网

英特尔下一代10nm Ice Lake处理器登陆腾讯云,星星海自研二路服务器内“芯”强大

intel001

13.7分类聚类算法

张荣召

如果云是水滴,Kubernetes就是水滴管理平台

华为云开发者社区

云计算 管理 k8s

13.1大数据计算引擎Spark(上)

张荣召

江苏智慧社区管理系统开发,智慧小区可视化服务平台

135深圳3055源中瑞8032

盘点2020 | 2020年读过的这些书

xcbeyond

读书感悟 盘点2020 七日更

13.10作业

张荣召

13.5大数据分析与可视化

张荣召

DDIA 读书笔记(7)分布式系统的问题

莫黎

读书笔记 分布式系统

天天CRUD,被领导怼,我是如何从小公司菜鸡到阿里P8架构师?,首次分享Java程序员黄金五年进阶心得

Java架构之路

Java 程序员 架构 面试 编程语言

年轻人不讲武德,乱用索引,你到底走了多少弯路?

比伯

Java 编程 架构 面试 程序人生

13.4大数据基准测试工具HiBench

张荣召

Alibaba技术专家必知必会的Java技术知识点,掌握这些理论+实践+技术是你通往阿里的路

Java架构之路

Java 程序员 架构 面试 编程语言

盘点2020 | 大龄程序员的进化(从自由职业者到讲师)

王磊

盘点2020

13.9机器学习与神经网络

张荣召

13.8推荐引擎算法

张荣召

淘宝|蚂蚁|菜鸟|盒马|滴滴|饿了么面经,已拿多个offer(Java岗)

Java架构之路

Java 程序员 架构 面试 编程语言

BATJ真题突击:Java基础+JVM+分布式高并发+网络编程+Linux

Java架构之路

Java 程序员 架构 面试 编程语言

Vmware+Centos设置静态IP

千泷

2020年度综合大盘点:火爆IT业的7大Java技术,每一项都是大写的“牛逼”!

云流

Java 编程 微服务

智慧公安动态大数据平台开发情报分析中心系统开发

135深圳3055源中瑞8032

区块链商品溯源APP开发,深圳区块链应用开发公司

135深圳3055源中瑞8032

Spark的分布式存储系统BlockManager全解析

华为云开发者社区

spark 分布式 存储

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

关于实时交通系统设计的7个问题-InfoQ