用户与项目背景
上汽依维柯红岩商用车有限公司(简称上汽红岩,SIH),是中国最早的重卡合资企业,也是我国第一个全面引进欧洲整车技术的重卡制造企业,是由上海汽车集团股份有限公司与重庆机电控股(集团)公司、菲亚特汽车集团所属依维柯商用车有限公司共同投资成立的重型汽车生产企业。
商用车运输行业是一个资源占用型和能源消耗型行业,商用车的油耗与减排问题一直非常突出。虽然商用车体量远小于乘用车,但无论是燃油的消耗量还是污染物排放,商用车的“贡献”都远高于乘用车。如何通过技术和管理的双重手段,科学、有效地引导商用车行业提高节能减排水平一直是商用车发展与营运的主要方向。
研究表明,在商用车的全生命周期的运营成本结构中,燃油费占比最大,远远超出其它支出。如果能够对燃油成本进行有效改善,不但可以帮助用户减少运营成本,提高收益,而且也会对商用车公司提高产品竞争力和节能减排发挥重要作用。
以往用户在购买商用车时,通常是根据自己的历史经验以及销售人员的指导与建议,最终确定自己的车辆配置,这样的选配结果往往不尽合理、科学,燃油经济性较差,造成用户商用车油耗高、运营成本高,与节能减排的理念背道而驰。解决这一问题,正成为商用车公司与用户非常关注的一个问题。
需求与问题
目前上汽依维柯红岩商用车有限公司使用 SAP 等公司的业务管理系统已十年有余,销售、生产、物流、采购等各个业务系统均已实现信息化与数据化,同时车联网也上线多年。SIH 的信息化系统汇聚了公司十多年的业务数据,目前拥有超过 15TB 的业务数据和 100TB 的车联网数据。
为了加强数据利用和数据价值的挖掘,开发大数据应用,SIH 已与同属上汽集团商用车事业部的上汽大通公司在 IT 系统建设方面进行全面合作,积极推进信息一体化建设。目前星环科技正在为上汽大通建设云平台,将各个业务系统的数据进行整合。SIH 在建设云平台的基础上,也将建设与云平台配套的 AI 平台,包括 Sophon Notebook 以及可视化的 AI 建模平台,可对机器学习模型进行参数调整、迭代算法。
上汽红岩工况配置车辆推荐模型项目涉及的业务系统包括数据仓库、车联网等,这部分数据将集成至云平台,供应商可以在云平台上对工况配置器模型进行调参、迭代、发布。
具体需求
目前 SIH 初步确定的输入项包括:车辆类型(牵引、载货、自卸)、车辆总重、道路类型、道路区域、货物类型等;输出项为车型、驱动型式、发动机型号、变速器型号、桥类型和桥比、轮胎规格等。同时在推荐车辆配置的基础上,给出不同运行工况下的燃油经济图谱。
图 1 SIH 商用车工况配置模型输入项与输出项
项目的目标是建立工况配置车辆推荐器核心算法模型。结合车联网、地图、工况、天气、路况、风阻等综合数据,将最低油耗与车辆配置建立关联模型。对核心模型算法进行评估检验,包括对本项目实施效果进行评估,如燃油性提高比例的合理性评估。根据实际情况对工况配置器进行迭代优化,进一步调整输入数据采集的范围及频率,完善核心模型参数。
解决方案
星环科技根据上汽红岩工况配置车辆推荐模型项目的实际需求,为客户提供星环科技的 Transwarp Sophon 人工智能平台和数据服务 API 工具 Midgard,星环数据科学家一起参与开发工况配置模型。
针对工况配置模型的开发需求,项目前期先梳理车联网中的数据,并对经纬度、车辆、道路等数据进行详细的数据清洗与探索。
第一,获取车联网数据,并对数据进行清洗和特征工程处理。车联网原始数据存放于本地 HDFS 上,通过星环科技的分析型数据库 Transwarp Inceptor 建立外表并读取数据,采样部分数据,并使用属性统计算子观察数据分布,将一些缺失值、空值、异常值进行清洗后,对数据进行特征工程处理,包括多道路段的分段数据统计、车辆历史信息统计、油耗统计等。
由于油耗数据存在跳变,因此道路分段时计算的平均油耗也会存在异常值,需要予以剔除。剔除异常油耗后的数据与车辆配置信息进行合并,统计出每种车型在不同工况下的油耗数据,然后存入数据库中供 API 调用。
第二,选取合适的算法,包括 PCA 降维可视化、高斯混合聚类等,进行模型训练。PCA 降维可视化过程,我们首先根据车型生成 ID 列,选出需要用来聚类的车辆特征,对字符串字段进行索引及编码。
PCA 前需要对字段进行归一化处理,来保证数据都处于同一纬度上。然后使用 Transwarp Sophon 的主成分分析算子来对数据进行降维,降维完成后的数据会以向量形式储存在 feature_transformed 列中,并使用向量分解器算子将其提取出来。在 Sophon Notebook 模块中读取对应数据并做图。由此可以看出不同车型之间的区分度不高,数据分布较为集中。
第三,使用 Transwarp Sophon 自带的 K-means 算法和高斯混合模型进行聚类分析。在 K-means 算法中,当数据相对高维、混杂时,降维到二维或三维可视化后无法轻易分割开时,无法给出样本属于某一个群体的后验概率。在实际工作中,大部分的群体并不是完全分割开的,相互交织的情况很多,这时用 K-means 聚类很难解释这个样本为什么属于这个类别。
而 GMM 高斯混合模型,通过线性组合分布的方式构造概率模型,并通过概率生成过程来学习参数,并最终通过数据点属于哪一个组件分布来决定聚类的标签。
第四,经过一系列的算法模型训练,我们进行了精确度预测和评估,结果满足客户的预期,最后将模型封装成 API。
API 开发涉及 3 个功能模块:配置选项更新、关联规则获取以及车辆配置推荐。我们采用 Sophon Notebook 方式进行开发,并以 Gateway 方式进行部署,提供给应用端上线运行,目前已稳定运行多个月。
详细的架构图如下:
图 2 SIH 商用车工况配置模型建立流程
应用效果与价值
上汽红岩工况配置车辆推荐模型已经完成,并正式投入使用,应用效果日益显现。
一、星环科技人工智能平台 Transwarp Sophon 内置了丰富的机器学习和深度学习算子(200+),并支持可视化拖拉拽一键式建模。丰富的算子和可视化建模,不仅能够满足客户大部分场景的建模需求,而且能够降低客户开发门槛,在后续的模型开发中,客户可以自主完成。
二、星环科技在金融、能源石化、制造业等行业领域拥有丰富成熟的 AI 落地经验,能够迅速赋能上汽红岩。依靠星环科技在大数据和人工智能方面的技术与应用积淀,能够快速开发完成上汽红岩工况配置的车辆推荐模型。
三、上汽红岩工况配置的车辆推荐模型项目完成后,低油耗车辆推荐模型准确率达到 90%以上。避免了依赖人为经验值推荐的不准确性,为上汽红岩客户售卖合适的车型提供了适用的手段,大大提高了消费者的满意度。
四、通过该项目的试点推行,重庆上汽红岩得到了集团支持,工况配置模型后续将推广到总公司。未来会将人工智能和机器学习应用推广到更多的部门和场景,也会创造更多的营收和利润。
本文转载自:星环科技(ID:transwarp-sh)
评论 1 条评论