计算机工程与科学

陈勇1,袁梦霆2,李清安2

2016, 38(2): 195-201. doi:

摘要 ( 436 )

PDF (872KB) ( 561 ) 　　

在分区内存体系结构中,如何尽可能少地插入片选指令是研究的热点。根据该问题的特点,构建了片选优化的图划分模型,并在该模型的基础上,提出了一种二阶段启发式搜索算法求解该问题。该算法首先根据节点自身的大小与图中分区大小快速获得一个初始可行解,然后在该可行解基础上利用节点之间边的权值和分区之间的权值作为启发式参数,搜索更优的解。通过对MiBench用例集和实际嵌入式系统的测试,验证了该模型及相应启发式算法的有效性,相对于VPAB算法,平均优化率达到37.99%,略优于成熟的商用编译器PICC,大幅度减少了片选指令的数量。

基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化

阳王东1,2 ,李肯立2

2016, 38(2): 202-209. doi:

摘要 ( 540 )

PDF (661KB) ( 734 ) 　　

稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。

一种基于Matrix的QR分解向量化方法

鲁庆男,刘仲

2016, 38(2): 210-216. doi:

摘要 ( 403 )

PDF (545KB) ( 543 ) 　　

提出一种基于Matrix的Givens旋转的QR分解向量化方法。针对Matrix的体系结构特点,对向量数据访存和计算进行优化,使计算均衡分布到各个向量处理单元；设计双缓冲DMA的数据传输策略,使得内核的计算与DMA数据搬移的时间完全重迭,内核始终处于峰值计算,从而取得最佳的计算效率。实验结果表明,该方法能够取得较高的计算效率和性能加速比。

基于Hadoop的可视化Deep Web采集平台设计

刘彤1,张阳2,孙琦2,袁翀2

2016, 38(2): 217-223. doi:

摘要 ( 570 )

PDF (822KB) ( 639 ) 　　

随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deep Web采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。实验结果表明,设计的数据采集平台获得了较好的效果。

栅元有效共振积分的CUDA算法设计与实现

任成磊1,蒲鹏2,韩定定1

2016, 38(2): 224-230. doi:

摘要 ( 422 )

PDF (966KB) ( 552 ) 　　

核反应堆中需要实时精确地计算堆芯和增殖材料的有效共振积分或群截面来实现反应堆的安全控制。整个计算过程因为涉及大量的积分运算和庞大的核素截面数据,采用常规的计算方法,计算时耗相当大。基于统一计算设备架构（CUDA）平台,利用图形处理器（GPU）的计算能力,对整个计算过程进行并行化分解,多线程同时运算,大幅度提升计算速度,降低时耗。实验结果表明,在GPU上并行计算所得结果与原始数据没有明显差异,且加速效果显著。

基于Hadoop平台的LDA算法的并行化实现

张钊1,2,3，张新峰1,2,3，郑楠1,2,3，贵明俊1,2,3

2016, 38(2): 231-239. doi:

摘要 ( 661 )

PDF (898KB) ( 587 ) 　　

随着互联网的飞速发展，需要处理的数据量不断增加，在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求，针对在单机情况下，传统LDA算法无法分析处理大规模语料集的问题，提出基于MapReduce计算框架，采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现，并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比，发现该方法在处理大规模语料时，能够较大地提升算法的运行速度，并且随着集群节点数的增加，在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性，解决了单机无法分析大规模语料集中潜藏主题信息的问题。

一种新的基于预约的拥塞避免机制

朱成阳，柴燕涛，董德尊，张鹤颖，庞征斌

2016, 38(2): 240-248. doi:

摘要 ( 630 )

PDF (1012KB) ( 489 ) 　　

由于高速互连网络上的负载不均衡，一些网络结点成为了热点，可能导致部分结点或是链路拥塞，这会极大地降低互连网络的性能。现有的基于预约的拥塞避免技术SRP可以进行主动的拥塞避免，极大地缓解了由于热点问题所带来的负面效应。但是，在热点模式下，其它非热点结点的路由器资源绝大多数处于空闲状态，为了进一步充分利用互连网络的资源，提升互连网络性能，提出了一种基于SRP改进的中间结点缓存技术IRP。IRP可以根据不同的拓扑，例如胖树，有效地利用热点的邻居结点的路由器资源，先利用胖树拓扑的多路径将报文发送给空闲路由器,一旦目的结点路由器可利用,则将缓存报文发送给目的结点，降低互连网络的延迟。

一种基于软硬件协同的程序安全关键数据动态保护机制

岳虹1,王蕾2,邓宇2,刘磊3

2016, 38(2): 249-254. doi:

摘要 ( 466 )

PDF (979KB) ( 469 ) 　　

针对内存和片外总线可能遭受的物理攻击,为保护内存数据安全,提出了一种基于软硬件协同的程序安全关键数据动态保护机制,提取用户定义的安全关键数据放置于安全区域,并且采用动态完整性验证的方式来判断其是否遭到篡改。与传统的程序内存数据保护机制相比,该机制具备能够预防基于硬件及软件的攻击、节约片上和片外存储空间、完整性运算量小、安全效能高等优点。

时空轨迹大数据分布式蜂群模式挖掘算法

于彦伟1,2,齐建鹏1,陆云辉1,2,赵金东1,张永刚2

2016, 38(2): 255-261. doi:

摘要 ( 566 )

PDF (762KB) ( 627 ) 　　

针对时空轨迹大数据的蜂群模式挖掘需求，提出了一种高效的基于MapReduce的分布式蜂群模式挖掘算法。首先，提出了基于最大移动目标集的对象集闭合蜂群模式概念，并利用最小时间支集优化了串行挖掘算法；其次，提出了蜂群模式的并行化挖掘模型，利用蜂群模式时间域无关性，并行化了聚类与子时间域上的蜂群模式挖掘过程；第三，设计了一个基于MapReduce链式架构的分布式并行挖掘算法，通过四个阶段快速地实现了蜂群模式的并行挖掘；最后，在Hadoop平台上，使用真实交通轨迹大数据集对分布式算法的有效性和高效性进行了验证与分析。

一种基于云环境的文件存储策略的研究

周兰凤1 ，孟驰1 ，彭俊杰2

2016, 38(2): 262-268. doi:

摘要 ( 449 )

PDF (940KB) ( 538 ) 　　

云存储是云计算技术的重要组成部分，包括存储位置的选择和文件的传输，文件传输环节包括上传和下载。传输作为存储的重要组成部分，对于存储效率有较大的的影响。近年来针对云存储技术的研究主要集中在数据存储和数据传输的效率上，针对大量流媒体文件上传至云存储服务器过程中传输效率低的问题，在私有云环境下提出了一种针对大量流媒体文件的传输机制THU，在该机制中提出了一种对于不同的云平台环境和传输客户端存在文件大小值fk的思路，将小于该值的文件无损打包成一定数量的大小为fk的文件进行传输，而将大于fk值的文件切割成一定数量大小为fk的文件进行传输，相比较打包或者切割成其他大小的文件进行传输时消耗的时间较少。本文在私有云环境下进行了大量的流媒体ftp传输实验，实验结果显示这样的fk值是存在的，当文件打包大小或等于该值时，打包、解包和传输消耗的总时间处于相对优化的水平，从而证明了THU机制的正确性和有效性。

哲学家就餐问题的算法实现

高升,陈月峰

2016, 38(2): 269-276. doi:

摘要 ( 533 )

PDF (732KB) ( 644 ) 　　

针对哲学家就餐问题这一操作系统中进程间通信的经典范例,设计了该范例的一个具有代表性的算法的技术实现方案。方案以Linux操作系统作为运行平台，通过进程而不是线程来体现哲学家的并发行为特征，以自动和随机相结合的灵活自然的人机交互模式模拟哲学家的状态,控制其状态切换；提出了两种形式的哲学家状态监控程序,它们能够生动、直观、准确地表达出哲学家状态的变化过程。字符形式的监控程序在字符终端和图形终端中均可使用,主要面向以超级终端登录到多用户Linux系统的用户；利用QT5开发的动画形式的监控程序适合在桌面Linux的图形终端中使用。

基于社会网络特性的双混沌互反馈加密算法研究

易成岐1,姜京池2,薛一波3,4

2016, 38(2): 277-283. doi:

摘要 ( 396 )

PDF (878KB) ( 609 ) 　　

社会网络的数据获取已经成为社会网络分析的重要基石,虽然大多数社会媒体提供给开发者官方接口以供数据获取,但是在调用频次、权限、内容等方面都有严格的限制,难以获取全面的数据。因此,基于用户模拟登录的数据获取方法显得尤为重要,然而目前大多数社会媒体的登录过程存在较大的安全隐患,其登录密码均采用明文传输,严重威胁到用户的隐私安全。详细分析了Twitter登录过程中客户端与服务器间的交互过程,并且在流量层面解析POST请求时,发现Twitter的登录密码采用明文传输。为此,提出一种基于社会网络特性的双混沌互反馈加密算法。该算法利用登录用户的ID、创建时间、关注数作为加密函数的初始值与参数,并通过Logistic映射和Tent映射两个混沌系统交互式运算,得出密钥序列。由于输入参数的特殊性,使得密文具有不可预测性。实验表明，该算法取得了较好的加密和解密效果,同时加密与解密均处于毫秒级,可以做到用户的无感操作。此外,该算法拥有初始条件极度敏感、密钥空间大、加密强度高等特点。该算法能有效地防止攻击者使用相图、穷举、统计等方法进行密码破解,具有广阔的应用前景。

基于位置信息的流式移动应用推送系统的研究

贾磊,阳旺,王昭阳,王国军

2016, 38(2): 284-289. doi:

摘要 ( 334 )

PDF (599KB) ( 431 ) 　　

目前与位置相关的移动应用越来越多,传统应用分发模式中,用户需要手动对应用进行搜索、下载、安装以及卸载,不利于提升用户使用应用服务的体验。设计并实现了基于位置信息的流式移动应用推送系统,该系统中服务器利用移动终端位置信息将相关应用解析、安装,并推送到移动终端显示,移动终端根据用户的选择从服务器流式加载应用。该系统使得用户在切换位置时,不用下载、安装即可使用和当前位置相关的应用服务。实验表明,和传统应用分发模式相比,在3G网络环境下可以减少64.37%的应用获取时延,在4G网络环境下可以减少74.49%的应用获取时延。

使用符号化驱动环境检测Linux设备驱动程序的漏洞

徐永健1,2,王丹1,陈渝2,范文良2

2016, 38(2): 290-296. doi:

摘要 ( 463 )

PDF (663KB) ( 531 ) 　　

研究表明，驱动程序的漏洞是造成Linux系统安全问题的主要原因之一,可引发提权、拒绝服务等高危情况。针对无具体设备的情况下,无法对驱动程序进行运行时漏洞检测的问题,提出了对驱动程序进行符号化执行的思路,提出了一种基于符号执行技术实现的驱动程序模拟环境,可以用于分析和检测Linux设备驱动程序中存在的安全漏洞。该环境通过模拟内核提供给驱动程序的服务接口,使驱动程序可以在应用层进行符号执行进而可对其进行漏洞检测。同时,该环境无需真实硬件的支持,并且具备覆盖率高、执行速度快、易于扩展等特点。通过将该环境作用于6个不同的Linux设备驱动,检测出了6个真实的漏洞,其中三个漏洞已向驱动维护者提交补丁并被接受。实验结果表明，符号化驱动环境具备一定的漏洞检测能力,并且拥有资源消耗低、检测速度快和不依赖于硬件设备的特点。

基于灰色关联分析的Web服务选择

戴小玲,唐明董,吕赛霞

2016, 38(2): 297-304. doi:

摘要 ( 346 )

PDF (569KB) ( 497 ) 　　

为方便用户选择最优Web服务,利用灰色系统理论对Web服务质量QoS属性因子进行分析,提出了一种基于用户QoS偏好的Web服务灰色关联分析方法。考虑到Web服务QoS的不确定性,该方法使用区间对Web服务QoS值进行建模。为了确定候选服务的QoS与用户QoS需求的符合程度,先针对服务的每个QoS属性,计算其与用户QoS需求的灰色区间关联系数；然后结合各个QoS属性的关联系数计算候选服务的QoS与用户QoS需求的综合灰色区间关联度,关联度越大的服务越符合用户的要求；最后从满足用户功能需求的Web服务中选择灰色关联度最大的Web服务推荐给用户。与其它Web服务评价模型相比较,该模型更加符合Web服务QoS的实际情况,能够在服务QoS信息不充分、不确定的环境下,对QoS属性进行合乎实际的分析处理,从而得到更加合理有效的QoS评价。

一种适用连续不确定XML数据的索引

张晓琳,郭丹丹,郝琨

2016, 38(2): 305-311. doi:

摘要 ( 395 )

PDF (880KB) ( 428 ) 　　

针对连续不确定XML数据概率阈值范围查询,提出一种新的CUXI索引树。该索引树的构建方法是借鉴U树对空间数据自顶向下递归构建索引树的思想,将连续不确定XML文档中具有相同父亲的叶子节点构建二维数据矩形,在聚类的基础上来构建相应的CUXI索引树,其中叶子节点存储连续不确定数据辅助信息。为了提高查询效率,对连续不确定数据制定了过滤策略,通过遍历索引树过滤掉不满足查询范围的子树。理论和实验结果表明,此索引技术可提高查询处理的性能。

基于遗传算法的时空数据压缩策略优化

钱景辉,王杉杉

2016, 38(2): 312-317. doi:

摘要 ( 457 )

PDF (760KB) ( 507 ) 　　

针对时空数据因为有损压缩导致的还原精度不高的问题,提出了使用遗传算法对时空数据压缩策略进行优化。算法模拟生物进化过程,首先,在初始阶段,根据所处数据环境在格拉斯普克算法基础上自适应地调整压缩参数,进行染色体编码,初始种群生成；然后在进化阶段,引入“精英保留策略”保证全局最优个体；最后完成交叉、变异等操作。采用四种不同的压缩策略进行实验,对比了各自压缩率和还原误差的详细情况。实验结果表明,遗传算法对于时空数据压缩的策略优化具有良好的效果,可以有效地降低还原误差。

面向全景拼接的图像配准技术研究及应用

兰红,洪玉欢,高晓林

2016, 38(2): 317-324. doi:

摘要 ( 624 )

PDF (1305KB) ( 708 ) 　　

针对SIFT算法在生成特征向量和进行特征匹配过程中存在的计算量较大、容易产生误匹配等不足,提出一种优化的SIFT配准算法。优化算法首先引入拉普拉斯算子对图像边缘进行锐化处理,结合图像单元信息投影熵原理提取分块图像特征；再依据投影熵矢量欧氏距离最小揣度进行特征匹配；最后利用改进的随机抽样一致性算法删除误匹配。改进算法应用于全景图像拼接中。实验表明,与原始SIFT配准算法相比,优化算法能够有效提高算法效率，减少错误匹配,取得了较好的匹配效果。

H.264码率控制跳帧算法的优化

周全1,2,3,王中元1,2,3

2016, 38(2): 325-330. doi:

摘要 ( 641 )

PDF (706KB) ( 503 ) 　　

传统的H.264码率控制算法跳帧策略,将缓冲区占有率和图像复杂度作为判断跳帧的依据。然而,图像复杂度虽然可以反映序列的运动剧烈程度,但不能完全刻画相邻帧的时域相关性,从而影响视频编码质量。针对这一问题,首先用相对复杂度代替复杂度,从而更好地反映当前帧与前面帧的时域联系;然后提出比特因子的概念,从缓冲区、相对复杂度、比特因子三方面综合给出跳帧条件。实验结果表明,改进算法跳帧后视频的峰值信噪比PSNR有明显提高,而且视频的流畅性也得到了改善。

一种基于极坐标变换的点模式匹配算法

高冠东1,2,王晶1,刘菲1,段庆1,朱杰1

2016, 38(2): 331-337. doi:

摘要 ( 489 )

PDF (807KB) ( 945 ) 　　

点模式匹配是目标识别、图像配准与匹配、姿态估计等计算机视觉与模式识别应用方向的基础问题之一。提出了一种新的利用点特征进行匹配的算法,该算法根据点集的分布与点位置信息,构建了点的特征属性图,通过极坐标变换得到对数极坐标的特征图,并利用几何不变矩方法对特征图进行描述。由特征描述向量的比较,获得粗匹配结果,然后通过几何约束迭代的方法获取最终的点集匹配结果。本文贡献如下：一,构建了一种点的极坐标变换特征,并运用不变矩进行描述,使所提特征具有旋转与平移的不变性；二,提出了利用点特征与整体点集几何约束结合的匹配算法,能有效克服出格点与噪声带来的不利影响。最终实验说明了算法的有效性和鲁棒性。

高阶PDE模型中的松弛中值图像去噪方法

芦碧波1,王建龙1,张跃2,王国东2

2016, 38(2): 338-343. doi:

摘要 ( 466 )

PDF (776KB) ( 496 ) 　　

针对平均曲率极小化模型在去噪过程中产生斑点的问题,提出了一种平均曲率和松弛中值滤波结合的迭代算法。首先,使用平均曲率模型对噪声图像处理,根据局部方差信息，利用阈值确定斑点的位置。其次,利用具一定边界保持性质的松弛中值滤波器消除斑点噪声。最后,为更有效地消除斑点，在每一次随着时间的迭代后都使用松弛中值滤波。对曲线和图像进行去噪仿真实验,结果表明，相对于平均曲率模型，本文算法在客观指标和主观视觉效果上均有更好的去噪效果和更低的时间复杂度。

带形状参数的QT-Bézier曲线曲面的构造和应用

刘华勇1,2,李璐1,张大明1

2016, 38(2): 344-349. doi:

摘要 ( 365 )

PDF (1450KB) ( 407 ) 　　

为了更加方便地表示和修改曲线曲面,提出了带形状参数的四次三角Bézier曲线曲面QTBézier的构造方法和应用。首先仿照Bézier曲线性质,构造了带形状参数的基函数,定义了带形状参数的QTBézier曲线曲面并研究了他们的一些主要性质,并就参数的选取做了一些分析。这种带形状参数的QTBézier曲线曲面是已有的一些曲线曲面的一般表达方法,如果选取一些特殊的参数,可以表示特殊的和已知的曲线曲面,还可以构造不同形状的旋转面。带形状参数的QTBézier曲线曲面可以很好地通过形状参数来调整曲线曲面的外形,而且能构造不同的旋转面,由于有额外的形状参数,更便于交互。

基于邻域信息熵度量数值属性快速约简算法

李少年，吴良刚

2016, 38(2): 350-355. doi:

摘要 ( 459 )

PDF (458KB) ( 616 ) 　　

阐述邻域粗糙集和邻域信息熵的基本定义及性质，为避免数值属性信息系统属性约简过程中，属性离散化造成特征信息的丢失，提出一种新的基于邻域信息熵度量数值属性约简算法。扩展邻域信息系统核属性集生成约简属性集，邻域信息熵度量不仅关注约简属性集正域变化，而且考察负域样本空间约简属性邻域等价类在决策属性划分的分布，具备更好的邻域关系度量细粒度。实验表明，对比邻域粗糙集近似度量、邻域有效信息率度量、邻域软间隔度量的属性约简方法，该算法能有效进行邻域信息系统属性约简的同时，也保持了约简属性集更好的分类精度。

一种改进的混合蛙跳和K均值结合的聚类算法

喻金平1,张勇2,廖列法2,梅宏标3

2016, 38(2): 356-362. doi:

摘要 ( 301 )

PDF (672KB) ( 484 ) 　　

传统K均值聚类(KMC)算法过分依赖初始值的设置,容易陷入局部最优；混合蛙跳算法(SFLA)存在收敛速度和搜索速度较慢、局部和全局信息交流不全面等缺点。针对以上缺点,首先提出一种改进的混合蛙跳算法(MSFLA)。该算法根据粒子群优化和差分进化思想,在青蛙个体变异时,引入上一次移动距离的权重惯性系数和缩放因子,从种群中的最优位置和历史最优位置之间的随机点出发,以子群内的青蛙的平均值和最差位置差值为步长进行青蛙个体的更新操作。再将MSFLA与KMC算法结合提出MSFLAKMC算法,有效地克服了KMC算法过分依赖初始值设置问题,同时降低了KMC算法陷入局部最优的可能性。实验结果表明,MSFLA具有较强的寻优能力，MSFLAKMC算法则具有更好的聚类性能。

一种基于聚集系数的社区发现算法

樊梦佳1,钮艳2,杜翠兰2,张仰森1

2016, 38(2): 363-369. doi:

摘要 ( 438 )

PDF (585KB) ( 531 ) 　　

社区划分一直是复杂网络研究中的一个热门话题,社区的快速准确划分为研究复杂网络的性质提供了良好的基础。传统的社区发现方法都是在全局复杂网络的基础上进行社区划分,随着网络中节点的增加,网络规模的变大,社区发现变得更为复杂。提出了一种局部社区发现算法,该算法无需知道整个复杂网络的全部信息,只需从一个待求节点出发,考察其与邻接节点的紧密程度,逐步将邻接点添加到社区中,得到该节点所在的社区结构。同时，该算法还可实现全局网络的社区发现。利用该算法分别对Zachary空手道俱乐部网络和海豚社会网络进行社区发现,实验结果表明了该算法的准确性与可行性。

基于支持度和增比率的改进关联分类算法

王卫平,周忠眉,郑艺峰

2016, 38(2): 370-375. doi:

摘要 ( 333 )

PDF (476KB) ( 376 ) 　　

：关联分类是一项重要的分类技术,目前普遍采用基于支持度和置信度的关联分类模式。但是,用支持度度量项集的分类能力过于简单,且置信度不能度量项集与类的相关性,所以利用支持度和置信度容易产生质量不好的规则。提出改进的关联分类算法—ACSER。ACSER不仅考虑项集到本类的支持度,也考虑项集到补类的支持度。首先,提取频繁增比模式作为分类候选规则集；其次,利用置信度和增比率度量规则的强度,按照其强度进行排序和剪枝；最后,选择k条最优的规则进行预测。在16个UCI数据集上的实验结果表明,改进的分类算法ACSER与传统的分类算法相比有更高的分类准确率。

基于蒙古语课程领域语义Web的推理与检索方法的研究

苏依拉，吉亚图，窦葆媛

2016, 38(2): 376-385. doi:

摘要 ( 498 )

PDF (1020KB) ( 613 ) 　　

由于蒙古语网络教学相对落后，蒙古语教学资源的重用和利用率较低，并且基于关键字的教学资源检索缺少在语义层面上的处理和表示，导致检索结果不全面和不准确。针对这种情况，提出基于蒙古语课程领域语义Web的检索方法。通过建立教学领域“人工智能（）”课程蒙文本体，利用关系数据库MySQL、语义相似度以及推理规则等工具与方法，实现构建基于蒙古语教学领域查询与检索原型系统。实验结果表明，该方法能有效地提高信息检索的查全率和查准率，并且建立了蒙古语教学资源可以共享和互操作的知识层次结构。

一种基于情绪激励度的情绪词加权方法

王世泓,牛耘

2016, 38(2): 386-394. doi:

摘要 ( 348 )

PDF (661KB) ( 515 ) 　　

在不同的上下文中，情绪词对情绪的激励程度会发生变化。现有情绪词典中大多数只标注了情绪词的情绪类别而未涉及情绪词的激励度。在极少数标注情绪强度的词典中,所标注的强度未考虑上下文的影响。提出一种根据上下文形成的情境评估情绪词对情绪的激励程度并据此对情绪词加权的方法。通过比较情绪词的共现模式与自身情绪类的分布模式计算情绪词的激励程度。然后根据激励程度计算情绪词的情绪权重并将其用于微博情绪识别。实验结果表明,与现有词典中的情绪强度相比,本文方法计算的情绪权重更准确地描述了情绪词在语料中表达的情绪,有效地提高了情绪分析的精度。并且本文方法还能够有效综合多个词典的优势,进一步提高微博情绪分析的准确率。

汉语口语互动分级语料库的构建

王跃龙

2016, 38(2): 395-400. doi:

摘要 ( 427 )

PDF (510KB) ( 553 ) 　　

介绍了一个汉语口语互动分级语料库的构建工作。该语料库为国内首个汉语口语互动分级语料库,记录了测试环境下学生口语互动的实际情况。语料库由超过1 200名学生的对话录制而成,时长超过3 000 min,样例分布范围从小学一年级到高中三年级。该语料库能为口语互动研究者提供经过转写和标注的真实语料,在语料调查的基础上可实现对口语互动的量化分析。另外,该语料库回避了通常根据任务难易度进行分级的做法,而是根据会话特征进行互动分级,以供研究者参考。这对口语互动分级标准的确立和互动教材的编纂等也将有参考意义。

当期目录

作者中心

审稿中心

在线期刊