写点什么

Datumbox:基于 Java 的新的开源机器学习框架

  • 2014-10-24
  • 本文字数:1813 字

    阅读完需:约 6 分钟

当今时代的探索和发现都是基于大量的算法、模型以及统计学的测试和工具。Datumbox 公司应运而生,它提供了一套强有力的基于 Java 的开源机器学习框架。

Datumbox API 提供了海量的分类器和自然语言处理服务,能够被应用在很多领域的应用,包括了情感分析、话题分类、语言检测、主观分析、垃圾邮件检测、阅读评估、关键词和文本提取等等。目前,Datumbox 所有的机器学习服务都能够通过 API 获取,该框架能够让用户迅速地开发自己的智能应用。目前,基于 GPL3.0 的 Datumbox 机器学习框架已经开源并且可以从 GitHub 上进行下载。

早期的 Datumbox 0.3.x 之前的框架是去年 8 月和 9 月开发的,它们是使用 PHP 来写的。在今年的五月和六月,新的 0.4.x 版本使用 Java 语言并且扩展了很多特性。这些版本都已经通过了商业应用的深度测试。目前的版本是 Datumbox 0.5.0,相关功能正在进一步完善,这只是第一款对于公众发布的 Alpha 版本。尽管是第一款,框架的 API 已经通过了无数的测试。并且在不久,将会有更加稳定并且优良的版本。

Datumbox 的机器学习平台很大程度上已经能够取代普通的智能应用。用户可以很轻松地注册,并且使用其强有力的、易于使用的 API 来构建自己智能平台服务。Datumbox 的机器学习 API 让每个开发者都能够迅速地构建自己的智能软件和服务。整个实现过程是十分简单的,几分钟就能够搞定。它具有如下几个显著的优点:

  1. 强大并且开源。Datumbox API 使用了强大的开源机器学习框架 Datumbox ,使用其高度精确的算法能够迅速地构建创新的应用。
  2. 易于使用。平台 API 十分易于使用,它使用了 REST&JSON 的技术,对于所有的分类器都提供了一套普通的接口,并且有一套简明的文档和代码样例,来帮助用户进行开发。
  3. 迅速使用。Datumbox 去掉了那些很花时间的复杂机器学习训练模型。用户能够通过平台直接使用分类器。

Datumbox 主要可以应用在四个方面。一个是社交媒体的监视,评估用户观点能够通过机器学习解决,Datumbox 能够帮助用户构建自己的社交媒体监视工具。第二是搜索引擎优化,其中非常有效的方法就是文档中重要术语的定位和优化。第三点是质量评估,在在线通讯中,评估用户产生内容的质量对于去除垃圾邮件是非常重要的,Datumbox 能够自动的评分并且审核这些内容。最后是文本分析,自然语言处理和文本分析工具推动了网上大量应用的产生,平台 API 能够很轻松地帮助用户进行这些分析。

类似于 Datumbox, Mahout Scikit-Learn 也是同一类型的项目,尽管它们拥有完全不同的目标。Mahout 仅仅支持有限的并行算法,这样能够使用 Hadoop 的 Map-Reduce 框架处理大数据。对于另外一个,Scikit-Learn 支持大量的算法但是它不能处理海量的数据。另外,它是基于 Python 进行开发的,能够很好的进行样板开发和科学计算,但并不是软件开发的最好的语言。

不同于如上两种平台,Datumbox 框架采取了一个折中的方式。它使用了 Java,尝试去支持大量的算法,这意味着它能够更轻松地包含产品代码,并且能够调整优化以减少内存消耗,从而使用在实时的系统中。尽管当前 Datumbox 框架只能处理到中型的数据集,它具有扩展到处理大数据的能力。

从平台的各个方面来看,特别是这仅仅是一个 Alpha 版本,Datumbox 机器学习框架有它自己的独特的但是可以接受的限制:

  1. 文档限制:目前说明文档没有很好覆盖所有的部分,更多的需要进行补充。
  2. 没有多线程:这个框架目前没有支持多线程处理,当然并不是所有的机器学习算法都可以并行化。
  3. 代码样例:尽管这个框架已经被发布,在网上可以找到的代码样例是很少的。
  4. 代码结构:为这样一个巨大的工程构建一个坚固的框架是很具有挑战性的,除此之外还需要处理可能彼此之间完全不同的机器学习算法。
  5. 模型持续性和大数据集:目前训练出的模型以 MongoDM 数据库形式存储在硬盘中。为了处理大量的数据,必须要开发另外的解决方案。例如 MapDB 可能是一个很好的选择。
  6. 新的算法、测试以及模型:目前还有很多很强大的技术没有被支持,特别是时序分析方面的技术。

总之,Datumbox 开源项目是一个新推出的很好的项目。对于机器学习、大数据处理方面很有需要的研究者来说,这不得不说是一个福音。用户可以尝试去深究一下开源的代码,从而更加深刻地了解这个平台,让自己地研究更加迅速和模式化。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-24 01:334299
用户头像

发布了 268 篇内容, 共 125.0 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

PowerPhotos for Mac(mac专用图片管理工具)v2.5.8直装版

iMac小白

PowerPhotos下载 PowerPhotos直装版 PowerPhotos激活版 PowerPhotos mac

EndNote 21 for Mac 大客户授权(文献管理软件)v21.3永久激活版

iMac小白

EndNote for Mac EndNote 21 EndNote 21下载 EndNote 破解版

天翼云助农上演“科技大片”,绘就数字春耕新图景!

天翼云开发者社区

云计算 云电脑

一招MAX降低10倍,现在它是我的了| 京东零售技术团队

京东科技开发者

新一代多模态合规分析平台,炼就服务洞察火眼金睛

中关村科金

人工智能 多模态 大模型 客户洞察

【京东云新品发布月刊】2024年4月产品动态

京东科技开发者

谈谈天翼云对等连接

天翼云开发者社区

云计算 天翼云

7个维度告诉你,产品经理是如何取舍“需求”的?

养心进行时

需求管理 需求 需求迭代

FonePaw Data Recovery for Mac:专业的数据恢复方案

iMac小白

Remote Desktop Manager for mac(远程桌面管理器)v2024.1.8.6中文激活版

iMac小白

算法人生(11):从“梯度提升树(GBDT)”看“2/8时间管理法”

养心进行时

机器学习 算法 时间管理 梯度提升树 GBDT

算法人生(13):从“Scrum”看“PDCA时间管理法”

养心进行时

Scrum 敏捷 时间管理 PDCA 敏捷项目管理

解构复合人工智能系统(Compound AI Systems):关键术语、理论、思路、实践经验

Baihai IDP

程序员 AI LLM 白海科技 企业号 5 月 PK 榜

浅谈云主机在VPC中进行迁移的使用场景和操作方法

天翼云开发者社区

云计算 云主机

基于LangChain实现数据库操作的智能体

测吧(北京)科技有限公司

测试

实“智”名归!天翼云论文被国际顶会IEEE CVPR收录!

天翼云开发者社区

人工智能 云计算

算法人生(14):从“探索平衡策略”看“生活工作的平衡之道”

养心进行时

人工智能 平衡 强化学习 探索平衡策略

OmniPlan Pro 4 for Mac v4.8.1中文激活版:项目管理的新选择

iMac小白

OmniPlan Pro 4下载 OmniPlan Pro 4破解版

算法人生(12):从“优先级队列算法”到“”六点优先工作法”

养心进行时

人工智能 算法 优先队列算法 六点优先工作法 工作方法

以数字守护汉字!天翼云TeleDB数据库获GB 18030最高级别认证!

天翼云开发者社区

数据库 云计算

Multitouch for Mac激活版下载:触控板手势增强软件

iMac小白

算法人生(15):从“智能任务调度算法”到“15-45-90时间管理法”

养心进行时

人工智能 算法 时间管理 智能调度

详解Python 中可视化数据分析工作流程

华为云开发者联盟

Python 数据可视化 华为云 华为云开发者联盟 企业号2024年5月PK榜

基于LangChain实现数据库操作的智能体

测试人

软件测试

算法人生(10): 从“惰性求解”看“积极拖延”如何提高效率

养心进行时

算法 拖延 惰性求解 算法思路

Paste Queue for Mac(剪切板管理工具)v1.6.2永久激活版

iMac小白

Paste Queue下载 Paste Queue破解版 Paste Queue激活版 Paste Queue mac

浅析MySQL代价模型:告别盲目使用EXPLAIN,提前预知索引优化策略| 京东零售技术团队

京东科技开发者

pandabuy VS wegobuy 淘宝代购集运系统类似软件哪家公司开发的?

tbapi

淘宝代购系统 淘宝代购集运系统 Pandabuy wegobuy

Datumbox:基于Java的新的开源机器学习框架_Java_张天雷_InfoQ精选文章