写点什么

Flickr 公布百万图像供研究者使用

  • 2014-07-10
  • 本文字数:1008 字

    阅读完需:约 3 分钟

近日,雅虎洛杉矶研究院的人机交互研究员 David Ayman Shamma 在雅虎研究院网站新闻上发布了Flickr 图片数据集,内有百万张基于Creative Common 许可的图片,以供研究者使用。David 是雅虎人机交互研究组的高级经理和组长,同时也是雅虎研究院在Flickr 的科研联络人。

在官网上对于数据集进行描述和结识的文章中,David 表示,信息时代的摄影在不停的发生变化,从古老的C-41 逐步演变成为完全不同的形式。粗略估计当前全世界的照片中,有10% 的来自过去一年,这还是三年之前给出的估计。图片服务网站Flickr 以Creative Common 许可为基础,成了人们分享照片的便捷途径。

当前学术界大部分的图像研究,还只能使用小规模数据集进行算法的测试。因此雅虎研究院联手Flickr 给全世界的研究人员提供一个更为宏伟的平台。因此Flickr 迅速得到了学术界的青睐,每张图片的原始数据,元数据,分享方式、分享网络,都可以为现有的研究问题如计算机视觉、社会网络研究等带来解答,同时也将孕育新的研究萌芽,比如现在机器学习领域的深度学习。

Flickr 此次公布的数据集中,包括近 1 亿张图片和 70 万部视频,它们全部来自 Flickr,并且受 Creative Common 许可保护。数据集大概有 12GB,包括图片 id、jpeg 格式图片的下载地址,视频的下载地址以及标题、描述、相机类型、标签等元数据。指的一提的是,其中大概 5 千万图片有地理信息标记,而且关于图片的评论,点赞以及分享数据都可以通过 Flickr 的 API 进一步得到。

更令人非常佩服的是,与以往的数据分享机构简单的发布原始数据这种方式不同,雅虎研究院非常认真的要进一步拥抱学术界,David 表示,由于 1 亿张图片的处理需要大量的计算能力和时间,并不是随便一个研究机构都能办到,雅虎研究院联合位于伯克利的国际计算科学研究所(ICSI)以及劳伦斯利弗莫尔国家实验室,会基于这些图片和视频提取业界常用的视觉和音频特征,然后放到亚马逊云服务(整个处理过的数据在 50TB 左右),供全世界的研究人员使用。

此外,David 还对研究方向给出了一些建议,如不借助图片的经纬度信息来给出拍摄地点的 MediaEval Placing 任务,物体定位、概念识别和抽取等任务。

目前数据集的下载需要向雅虎研究院提交申请,审核后可以下载。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2014-07-10 11:081775
用户头像

发布了 268 篇内容, 共 119.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

LED显示屏只显示一半怎么办

Dylan

硬件 显示器 LED显示屏

Lasso for mac(窗口管理器) 1.5.6中文版

mac

苹果mac Windows软件 Lasso 图片和屏幕截图工具

文件传输软件常见问题解决办法大全

镭速

文件传输软件

关于低代码解放程序员这件事儿

互联网工科生

低代码 可视化开发 企业级应用程序开发 JNPF

软件开发项目文档清单(多套实际案例)

金陵老街

告别传统人肉运维,实现360°可观测!奇点云数据存算引擎DataKun R2.0发布

奇点云

产品发布 奇点云 数据安全引擎 数据存算引擎

腾讯云ES:一站式配置,TKE容器日志采集与分析就是这么简单

腾讯云大数据

ES

Photoshop 2023 (ps 2023) for Mac v24.6/25.0beta激活版

mac

Photoshop 2023 PS2023 修图软件 苹果mac Windows软件下载

【智领信创】用友 U8 cloud &亚信科技 AntDB联合产品强势来袭,0元购活动惠及陕、鲁

亚信AntDB数据库

数据库 AntDB AntDB数据库 企业号 8 月 PK 榜

HA3 SQL样本实验:一种混合计算查询的全新样本解决方案

阿里技术

基于昇腾,安擎又双叒叕推新品!

科技热闻

预设成功

FunTester

TooKit助力开发者上云

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

简明易懂的介绍:Selenium是什么?

Liam

编程 测试 自动化测试 web开发 测试工具

镭速-解析极速文件传输软件

镭速

文件传输软件 传输文件

构建以人为本的全面预算管理模式

智达方通

全面预算管理 以人为本

袋鼠云数栈 DataOps 数据生产力实践,实现数据流程的自动化和规范化

袋鼠云数栈

DataOps

推动多云管理平台发展的因素简单分析

行云管家

云计算 云管平台 上云

HarmonyOS系统级推送服务,打造消息通知新体验

HarmonyOS SDK

瓴羊Quick BI跻身Gartner魔力象限挑战者行列

夜雨微澜

山东布谷网络科技详解直播打赏源码,让功能更灵活

山东布谷网络科技

App 直播源码

文心一言 VS 讯飞星火 VS chatgpt (73)-- 算法导论7.1 4题

福大大架构师每日一题

福大大架构师每日一题

2023年广州国际智能窗帘及智能门窗遮阳展会

秋硕展览

MES系统在机器人行业生产管理种的运用

万界星空科技

人工智能 机器人 MES系统 机器人自动化

IPQ5018-IPQ4019-IPQ6010-support WIFI technology-MESH-FAST ROAMING

wifi6-yiyi

mesh FASTROAMING

2023年-广州国际睡眠家居产品及睡眠展会

秋硕展览

企业如何挑选适合自己需求的文件传输软件

镭速

文件传输软件

好玩有趣的HTML标签

专注前端开发

html

如何优雅地处理RabbitMQ中的消息丢失

互联网工科生

RabbitMQ 消息系统 消息不丢失

Rust“巨坑”?真相来了!

这我可不懂

rust 编程语言 后端

龙蜥社区系统运维 MeetUp

乘云 DataBuff

Flickr公布百万图像供研究者使用_大数据_张天雷_InfoQ精选文章