1.模式跟踪
模式跟踪是数据挖掘的一项基本技术。它旨在通过识别和监视数据中的趋势或模式,以对业务成果形成智能推断。例如,企业可以用它来识别销售数据的发展趋势。如果发现某种产品在某些特定人群中的销售情况,要好于其他产品,那么该企业便可以据此来创建类似的产品或服务,甚至只是简单地为此类人群增加原始产品的库存。
2.数据清理和准备
作为数据挖掘过程中的一个重要环节,我们必须对原始数据进行清理和格式化,以用于各种后续的分析。具体而言,数据的清理和准备工作包含了:数据建模,转换,迁移,集成和聚合等各种元素。这是理解数据基本特征和属性,进而确定其最佳用途的必要步骤。
3.分类
基于分类的数据挖掘技术,主要涉及到分析各种类型数据之间的关联属性。一旦确定了数据类型的关键特征,企业便可以对它们进行分类。企业可以据此判定是该保护,还是该删除某些个人身份信息。
4.异常值(Outlier)检测
异常值检测可被用于识别数据集中的异常情况。企业在发现数据中异常值后,可以通过防范此类事件的发生,以顺利实现业务目标。例如,信用卡系统在某个特定时段出现使用和交易的高峰,那么企业便可以通过分析了解到,可能是由于“大促”所致,并为将来的此类活动做好资源上的事先部署与准备。
5.关联
关联是一种与统计学相关的数据挖掘技术。它旨在建立某些数据与其他数据、或数据驱动型事件的联系。它与机器学习中的“共现(co-occurrence)”概念相似,即:某个基于数据的事件的发生概率,是由另一个事件的存在性所标识的。例如,用户购买汉堡这一行为,往往会伴随着购买薯片的可能性。两者之间有着较强的关联性,却又不是绝对的伴生关系。
6.聚类
聚类是一种依靠可视化方法,来理解数据的分析技术。聚类机制使用图形或颜色,来显示数据在不同类别指标下的分布情况。通过图形式的聚类分析,用户可以直观地获悉数据随业务目标发展的趋势。
7.回归
作为一种简单的白盒技术,回归技术可被用于识别出,数据集中变量之间的因果关系、或相关性质。它在数据建模和预测等方面非常实用。
8.顺序模式
此类数据挖掘技术关注于发现和挖掘一系列顺序发生的事件,因此常被用于事务性的数据环境中。例如,它可以预测某个顾客在最初购买了某种样式的鞋后,最有可能去购买哪些相配的服装。顺序模式可以帮助企业向客户推荐并销售其他增值项产品。
9.预测
预测分析是指在当前或历史的数据中,对发现到的模式进行扩展,以便企业根据现有数据,洞察到即将发生的趋势。我们既可以使用简单的算法,又可以运用高级的机器学习和人工智能来实现预测分析。
10.决策树
作为一种特定类型的预测模型,决策树可以让企业有效地提取所需的数据。从技术上说,决策树属于一种极其简单的“白盒”类机器学习技术。而从效果上说,决策树能够使用户清楚地了解到,输入数据是如何影响结果的。当有多个决策树模型被组合在一起时,它们将创建所谓随机森林的预测分析模型。由于输入并不总能被轻易地猜测其输出结果,因此复杂的随机森林模型常被视为“黑盒”类机器学习技术。当然,在大多数情况下,相比单纯地使用决策树,集成建模的基本形式要更为准确一些。
11.神经网络
作为一种特定类型的机器学习模型,神经网络通常能够与AI、以及深度学习协同使用。由于该网络具有类似于人脑中神经元的不同功能层,因此它被誉为目前最精确的机器学习模型之一。
12.可视化
数据可视化可以在数据挖掘的过程中,为用户提供可查看到的数据视图。目前,数据可视化可用于实时数据流的传输场景中,以不同的颜色、动态地展示数据中的不同趋势和模式。企业不仅能够使用统计模型中的数值结果,还可以用基于不同指标的仪表板,来可视化地突显数据中的模式。
13.统计技术
作为数据挖掘过程的核心,统计技术基于统计的概念,利用不同的分析模型,产生适用于特定业务目标的数值。例如,神经网络可以使用基于不同权重和度量的复杂统计信息,来确定被输入到图像识别系统中的图片上,到底是狗、还是猫。
14.长时记忆处理(Long-term Memory Processing)
长时记忆处理是指能够长时间分析数据的能力。那些存储在数据仓库中的历史数据可被用于此目的。企业需要通过长时分析,来识别出原本难以检测到的模式。例如,通过分析过去几年的人员流失情况,企业可以找到可能导致账务恶化的蛛丝马迹。
15.数据仓库
从传统上说,数据仓库是将结构化的数据,存储在关系型数据库管理系统中,以便对其进行商业智能化分析、报告,并提供基本的仪表板显示。目前,业界有基于云端的数据仓库、以及半结构化和非结构化的数据仓库(如Hadoop)。过去,数据仓库主要处理的是历史数据。如今,它也能够利用各种现代化技术与方法,实时地提供对于数据的深入分析。
16.机器学习与人工智能
诸如深度学习之类的高级机器学习形式,在处理大规模的数据时,可以提供较高准确性的预测。因此,它们可以被用在实施AI过程中的数据处理,其中包括:计算机视觉、语音识别、以及使用自然语言处理的复杂文本分析等。此类数据挖掘技术有助于识别半结构化和非结构化的数据价值。
山西省运城市盐湖区复旦西街1155号 邮箱编码:044000
联系电话:0359-2090418 传真电话:0359-2090378