J4 ›› 2012, Vol. 34 ›› Issue (9): 174-179.
张素琪1,梁志刚2,胡利娟2,董永峰2
ZHANG Suqi1,LIANG Zhigang2,HU Lijuan2,DONG Yongfeng2
摘要:
关联规则是数据挖掘研究中最主要、最活跃的领域之一。以Apriori算法为前提,借助AprioriTid算法事务压缩的思想,减少了重复扫描数据库的时间;并提出了一种利用事务标识列表,该列表长度即是对应候选项集的支持度计数,在计算支持度计数时,仅需要得到对应列表长度即可,从而缩短了计算计数时的比较时间;同时,在生成频繁项集时引入地址索引机制,在剪枝过程中,利用候选项集的首元素在地址索引表中快速定位,减少了多次扫描事务数据库,有效地缩短了计数时间和占用的内存空间。利用改进的算法对科研管理系统数据进行关联关系分析,从中萃取数据中隐含的、有价值的信息,辅助下一阶段的科研管理工作。并通过试验进行性能比较得出,改进后的算法效率更高。