数据清理和预处理,一般占数据挖掘全部工作量的10%以内。()



数据清理和预处理,一般占数据挖掘全部工作量的10%以内。()

A、正确

B、错误

正确答案:B

答案解析:数据清理和预处理在数据挖掘中占据着极其重要的地位,其工作量往往远超全部工作量的10%。

数据挖掘的原始数据通常存在各种问题:

数据不完整:部分数据记录可能缺少某些关键属性值。例如在客户信息表中,可能有些客户的联系方式、年龄等字段为空。这些缺失值若不处理,可能影响分析结果的准确性。处理缺失值可能需要采用删除记录、填补均值/中位数或使用机器学习算法预测填补等方法,这都需要耗费大量时间和精力去分析和选择合适策略。

数据噪声:数据中可能包含错误或偏离其他大部分数据的异常值。如在销售数据中,由于人为录入错误或传感器故障,可能出现某个商品销量异常大或异常小的值。这些噪声数据若不清理,会对模型训练产生误导,影响最终挖掘结果的可靠性。识别和处理噪声数据需要运用统计分析、机器学习算法等多种手段。

数据不一致:同一实体在不同数据源中的表示可能不同。比如在不同系统中,客户姓名的格式可能存在差异,有的是全称,有的是简称,或者日期格式不一致等。这就需要进行数据标准化和统一,以确保数据的一致性。

鉴于原始数据普遍存在这些问题,数据清理和预处理工作需要投入大量人力和时间来确保数据质量,为后续的数据挖掘算法提供可靠的数据基础。据相关统计,数据清理和预处理工作通常占数据挖掘全部工作量的60%-80%左右。所以“数据清理和预处理,一般占数据挖掘全部工作量的10%以内”这种说法是错误的。


Tag:人工智能应用基础 时间:2025-10-05 11:07:00