8个用于数据发现的优秀开源工具
发布时间:2021-06-04 19:37:39 所属栏目:大数据 来源:互联网
导读:在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。这些数据最终会被加上标签,用于模型的训练。很多的数据科学家和机器学习工程师都有其熟悉的数据挖掘工具,但市场上也不乏许多开源的数据挖掘工具
在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。这些数据最终会被加上标签,用于模型的训练。很多的数据科学家和机器学习工程师都有其熟悉的数据挖掘工具,但市场上也不乏许多开源的数据挖掘工具。
Apache Mahout
Apache Mahout是流行的分布式线性代数框架。该框架是具有数学表达能力的Scala DSL,能够让统计学家和数据科学家以更快的方式实现其算法。它构建了一个用于快速创建可扩展且性能驱动的机器学习应用程序的环境。
8个用于数据挖掘的最佳开源工具
Apache Mahout有诸多优势,比如它允许应用程序以更快的方式分析大型数据集;支持数学表达式Scala DSL;支持多个分布式后端,包括Apache Spark;适用于CPU/GPU/CUDA加速的模块化本机求解器。
DataMelt
DataMelt或DMelt是用于数值计算,数学、统计、符号计算,数据分析和数据可视化的开源软件。该平台是Python,Ruby,Groovy等各种脚本语言的组合,以及其他Java软件包。
8个用于数据挖掘的最佳开源工具
DMelt是一个计算平台,可以在各种操作系统上与不同的编程语言一起使用;DataMelt可以与Java平台的几种脚本语言一起使用,例如Jython(Python编程语言),Groovy,JRuby(Ruby编程语言)和BeanShell;它可创建高质量的矢量图形图像(SVG,EPS,PDF等),这些图像可以包含在LaTeX和其他文本处理系统中。
ELKI
由Index-Structures或ELKI支持的开发KDD应用程序的环境,是用Java语言编写的开源数据挖掘软件。该平台能够研究算法,重点是聚类分析和离群值检测中的无监督方法。
![]() (编辑:广安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |