高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

阿里巴巴大数据竞赛介绍

  • 2014-03-10
  • 本文字数:2220 字

    阅读完需:约 7 分钟

1. 大赛介绍:

阿里巴巴大数据竞赛是阿里巴巴集团主办,以天猫推荐算法为场景,在阿里巴巴大数据科研平台——“天池”上开展的,基于海量真实用户访问数据的算法大赛。

本次比赛的目的是让广大的高校同学在大数据时代的背景下,有机会学习和利用阿里巴巴的大数据和云计算平台,尝试解决真实的业务与社会问题。

整个比赛分为三季(season):

Season 1:2014 年 3 月 10 日至 4 月 20 日,参赛者可以下载少量天猫的真实行为数据,并在本地调试算法,提交结果。

Season 2:2014 年 4 月 25 日至 7 月 30 日,参赛者须使用“天池”平台(阿里巴巴自主研发的分布式计算平台),访问海量的天猫数据,并利用 Map&Reduce、SQL 及各种平台集成的机器学习算法包调试模型、提交结果。

Season 3(即线上赛,实战双 11):2014 年 10 月至 11 月,Season 2 的 top 选手可以访问天猫,参与 2014 年双 11 的真实算法设计,并有机会获取百万大奖。

2. 报名规则

1. 参赛对象

全日制高校(研究院所)本科、硕士、博士均可参赛

2. 组队规则

参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人(可以跨学院跨学校)。如果是多人团队,则需指定一名队长,负责沟通事宜。另外每个队伍可以配备指导老师一名

注:

  1. 每人只能参加一支队伍;
  2. 保证参赛队员报名信息准确有效, 否则会被取消参赛资格及激励;
  3. 进入 season2 后,不允许变更队伍成员;
  4. 报名时间:只要在 4 月 20 日 0:00(season1 截止)之前报名即可。鼓励大家早点报名,可以早点接触到数据,以确保参赛时间充足。
  5. 报名方式:官网注册账号后报名即可
  6. 交流论坛:阿里云论坛(后续补充)

3. 报名地址

活动官方地址: http://102.alibaba.com/competition/addDiscovery/index.htm

大赛官方微博: @2014 阿里巴巴大数据竞赛

大赛技术交流微博: @2014 阿里大数据竞赛技术交流

3. 主办方:阿里巴巴集团

4. 赛制安排:

5. 赛题介绍

本赛题适用于 season1 和 season 2 的比赛,season 3 为线上赛(season 2 赛后公布题目)。

在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户 4 个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型:

字段

字段说明

提取说明

user_id

用户标记

抽样 & 字段加密

Time

行为时间

精度到天级别 & 隐藏年份

action_type

用户对品牌的行为类型

包括点击、购买、加入购物车、收藏 4 种行为

(点击:0 购买:1 收藏:2 购物车:3)

brand_id

品牌数字 ID

抽样 & 字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品 ID 都已汇总为商品对应的品牌 ID。用户和品牌都分别做了一定程度的数据抽样,且数字 ID 都做了加密。所有行为的时间都精确到天级别 (隐藏年份)。

6. 评估指标

我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。

7. 不同赛季使用数据说明

Season 1**** 赛季数据

1) 数据获取格式:

参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(补充地址

2) 数据说明:

提供的原始文件有大约 5M 左右,涉及 1 千多天猫用户,2 千多个天猫品牌,总共 10 万多条的行为记录。用户 4 种行为类型 (Type) 对应代码分别为:

点击:0;购买:1;收藏:2;购物车:3

3) 提交评分方式:

参赛者将预测的用户存入文本文件中,格式如下:

user_id \t brand_id , brand_id , brand_id \n

如图:

将预测结果文件上传至大赛官网结果提交入口即可。(补充地址

Season 2**** 赛季数据

1) 数据获取方式:

初赛阶段的数据参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。

登陆天池集群方法,请详见大赛官网相关说明文档。(补充地址)

2) 数据说明:

提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度 4 个月的行为记录。

提供的训练数据在天池集群的表 t_alibaba_bigdata_user_brand_tota_1 中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示

用户 4 种行为类型 (Type) 对应代码分别为:

点击:0;购买:1;收藏:2;购物车:3

3) 提交评分方式:

参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,包含 user_id 和 brand 两列。其中 brand 字段为预测的偏好品牌 ID,多个品牌之间用逗号 (",") 分隔。

例如:

8. 奖项设置:

Season 1 不设奖项,但是会从参赛队伍中选择较优者进入 Season 2 阶段比赛。

Season 2 阶段奖项:

一等奖:1 支队伍,奖金贰拾万

二等奖:1 支队伍,奖金伍万

三等奖:1 支队伍,奖金贰万

(上述奖项以决赛答辩成绩的最终名次决定)

  • 月星星奖:每期月度榜单排名 Top10 的参赛队成员都将获得搭载云 OS 的手机一部(具体手机型号在公布榜单时公布)
  • 优胜奖:决赛全国赛排名 Top50 的参赛队成员直接进入阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段) , 在校期间均有效 ; 并将获得阿里纪念 T 恤和大赛获奖证书
  • 总决赛 Top10 的主要参赛队成员可直接入围 **“阿里星”计划, 参赛队的指导老师(如有)将享受天池数据的最高使用权限 1 年。**

Season 3 线上阶段奖项:

Season 2 阶段的优胜者,将会受邀访问天猫,在天猫实际开发 2014 年双 11 线上算法,并有机会赢取 100 万大奖(组委会将在 Season 2 结束后公布细则)。

2014-03-10 02:388943
用户头像

发布了 1187 篇内容, 共 500.8 次阅读, 收获喜欢 2341 次。

关注

评论

发布
暂无评论
发现更多内容

Spring Cloud Gateway (六) 自定义 Global Filter

Java 网关 SpringcloudGateway

腾讯TcaplusDB核心引擎技术揭秘——存储篇

TcaplusDB

数据库 nosql 原理

移动设备管理平台的搭建(基于STF/ATXServer2)

行者AI

人工智能

如何通过 Serverless 轻松识别验证码?

阿里巴巴云原生

人工智能 阿里云 Serverless 云原生 数据采集

light-rtc: 理念与实践

阿里云视频云

架构 音视频 WebRTC RTC

干了三年的Java,你竟然还不会MySQL性能优化

华为云开发者联盟

Java MySQL sql

软件测试--前后端数据交互

测试人生路

软件测试

“区块链+有机蔬菜”农产品溯源项目落地

CECBC

农业发展 农业

字节内部MySQL宝典意外流出!极致经典,堪称数据库的天花板

比伯

Java 编程 架构 面试 技术宅

如何利用状态同步开发一款游戏

Isa 婷婷

node.js 游戏开发 24小时自助游戏厅 联机游戏

腾讯 TcaplusDB 核心引擎技术揭秘——存储篇

TcaplusDB

数据库 nosql

免费下载来自阿里巴巴 双11 的《云原生大规模应用落地指南》

阿里巴巴云原生

阿里巴巴 阿里云 开发者 云原生 k8s

数字化浪潮下 哪些银行业务或“生变”

CECBC

金融科技

阿里拆中台?从架构师角度解读中台

javaba韩老师

架构 中台战略 TOGAF 中台的前世今生 中台的由来

Flink SQL 实战:HBase 的结合应用

Apache Flink

flink

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink

大数据 flink 流计算

「每日一题」抖音面试题:请阐述vue数据绑定的实现原理

Java架构师迁哥

2021 第一份唠嗑

大头虾

架构师训练营第六周作业

zamkai

内存分页不就够了?为什么还要分段?还有段页式?

yes

操作系统 内存管理

LeetCode题解:264. 丑数 II,三指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

面试软件测试所需要掌握的7个技能

华为云开发者联盟

sql 面试 测试

深层互联带领自动旅游讲解耳麦进入“非入耳”时代

DT极客

引起故障的原因

jorden wang

Flink 双流 Join 的3种操作示例

Apache Flink

flink 流计算

基于GaussDB(DWS)的全文检索特性,了解一下?

华为云开发者联盟

数据库 数据仓库 数据

打造新一代企业数据驱动体系

StarRocks

数据库 大数据 数据分析 数字化转型 OLAP

2020年不容错过的10本大咖之作 | 你最Pick哪一本?

博文视点Broadview

主从哨兵集群终于给你说明白了

moon聊技术

数据库 redis

优化了MYSQL大量写入问题,老板奖励了1000块给我

华为云开发者联盟

MySQL sql 写入

阿里巴巴大数据竞赛介绍_阿里巴巴_InfoQ 中文站_InfoQ精选文章