1. 大赛介绍:
阿里巴巴大数据竞赛是阿里巴巴集团主办,以天猫推荐算法为场景,在阿里巴巴大数据科研平台——“天池”上开展的,基于海量真实用户访问数据的算法大赛。
本次比赛的目的是让广大的高校同学在大数据时代的背景下,有机会学习和利用阿里巴巴的大数据和云计算平台,尝试解决真实的业务与社会问题。
整个比赛分为三季(season):
Season 1:2014 年 3 月 10 日至 4 月 20 日,参赛者可以下载少量天猫的真实行为数据,并在本地调试算法,提交结果。
Season 2:2014 年 4 月 25 日至 7 月 30 日,参赛者须使用“天池”平台(阿里巴巴自主研发的分布式计算平台),访问海量的天猫数据,并利用 Map&Reduce、SQL 及各种平台集成的机器学习算法包调试模型、提交结果。
Season 3(即线上赛,实战双 11):2014 年 10 月至 11 月,Season 2 的 top 选手可以访问天猫,参与 2014 年双 11 的真实算法设计,并有机会获取百万大奖。
2. 报名规则
1. 参赛对象
全日制高校(研究院所)本科、硕士、博士均可参赛
2. 组队规则
参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人(可以跨学院跨学校)。如果是多人团队,则需指定一名队长,负责沟通事宜。另外每个队伍可以配备指导老师一名
注:
- 每人只能参加一支队伍;
- 保证参赛队员报名信息准确有效, 否则会被取消参赛资格及激励;
- 进入 season2 后,不允许变更队伍成员;
- 报名时间:只要在 4 月 20 日 0:00(season1 截止)之前报名即可。鼓励大家早点报名,可以早点接触到数据,以确保参赛时间充足。
- 报名方式:官网注册账号后报名即可
- 交流论坛:阿里云论坛(后续补充)
3. 报名地址
活动官方地址: http://102.alibaba.com/competition/addDiscovery/index.htm
大赛官方微博: @2014 阿里巴巴大数据竞赛
大赛技术交流微博: @2014 阿里大数据竞赛技术交流
3. 主办方:阿里巴巴集团
4. 赛制安排:
5. 赛题介绍
本赛题适用于 season1 和 season 2 的比赛,season 3 为线上赛(season 2 赛后公布题目)。
在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户 4 个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。
我们会开放如下数据类型:
字段
字段说明
提取说明
user_id
用户标记
抽样 & 字段加密
Time
行为时间
精度到天级别 & 隐藏年份
action_type
用户对品牌的行为类型
包括点击、购买、加入购物车、收藏 4 种行为
(点击:0 购买:1 收藏:2 购物车:3)
brand_id
品牌数字 ID
抽样 & 字段加密
用户对任意商品的行为都会映射为一行数据。其中所有商品 ID 都已汇总为商品对应的品牌 ID。用户和品牌都分别做了一定程度的数据抽样,且数字 ID 都做了加密。所有行为的时间都精确到天级别 (隐藏年份)。
6. 评估指标
我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。
7. 不同赛季使用数据说明
Season 1**** 赛季数据
1) 数据获取格式:
参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(补充地址)
2) 数据说明:
提供的原始文件有大约 5M 左右,涉及 1 千多天猫用户,2 千多个天猫品牌,总共 10 万多条的行为记录。用户 4 种行为类型 (Type) 对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者将预测的用户存入文本文件中,格式如下:
user_id \t brand_id , brand_id , brand_id \n
如图:
将预测结果文件上传至大赛官网结果提交入口即可。(补充地址)
Season 2**** 赛季数据
1) 数据获取方式:
初赛阶段的数据参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。
登陆天池集群方法,请详见大赛官网相关说明文档。(补充地址)
2) 数据说明:
提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度 4 个月的行为记录。
提供的训练数据在天池集群的表 t_alibaba_bigdata_user_brand_tota_1 中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示
用户 4 种行为类型 (Type) 对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,包含 user_id 和 brand 两列。其中 brand 字段为预测的偏好品牌 ID,多个品牌之间用逗号 (",") 分隔。
例如:
8. 奖项设置:
Season 1 不设奖项,但是会从参赛队伍中选择较优者进入 Season 2 阶段比赛。
Season 2 阶段奖项:
一等奖:1 支队伍,奖金贰拾万
二等奖:1 支队伍,奖金伍万
三等奖:1 支队伍,奖金贰万
(上述奖项以决赛答辩成绩的最终名次决定)
- 月星星奖:每期月度榜单排名 Top10 的参赛队成员都将获得搭载云 OS 的手机一部(具体手机型号在公布榜单时公布)
- 优胜奖:决赛全国赛排名 Top50 的参赛队成员直接进入阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段) , 在校期间均有效 ; 并将获得阿里纪念 T 恤和大赛获奖证书
- 总决赛 Top10 的主要参赛队成员可直接入围 **“阿里星”计划, 参赛队的指导老师(如有)将享受天池数据的最高使用权限 1 年。**
Season 3 线上阶段奖项:
Season 2 阶段的优胜者,将会受邀访问天猫,在天猫实际开发 2014 年双 11 线上算法,并有机会赢取 100 万大奖(组委会将在 Season 2 结束后公布细则)。
评论