2019年6月6日,best365网页版登录高宝俊教授面向全校师生做了一场珞珈方法训练营学术讲座,主题为“文本大数据分析方法与关键概念测度:以商学实证研究为例”。该活动由best365网页版登录人文社会科学研究院主办,best365网页版登录大数据研究院承办。讲座原定在经管院B127教室举办,因参与人数过多地点临时改为教工之家,下午的讲座因人数进一步增加迁移至景林报告厅进行。
高宝俊老师首先介绍了大数据时代的背景,指出线上的文本、音频、视频数据给商学实证研究带来了许多新的机遇,尤其在文本数据方面,机器学习、文本分析、自然语言处理等新兴技术给商学关键概念测度提出了新的方法。高老师介绍了目前在商学实证研究中比较成熟以及热门的文本分析方法,主要有:自然语言处理的基本概念,词频分析、TF-IDF、可读性、语言风格匹配、情绪分析及文本分类、贝叶斯主题模型lda、word2vec词嵌入向量、文本相似性和中文分词等。
对于每一种方法,高老师都以近年商学领域的国际重要期刊为例,从研究实践出发,介绍商学实证研究中常用的文本数据源及其R语言实现。同时,高宝俊老师提供了一个在线评论的数据集以及实现好的R编程代码,方便老师和同学进一步的研究和学习。高老师一一介绍了文本数据的前期预处理方法、Term Frequency Matrix的含义及生成、词频的提取、TF-IDF词权重的构建、英文文本可读性指标及语言风格匹配等关键概念,同时也对lda主题模型的算法原理,参数选取进行了说明。最后高老师对近几年热门的词嵌入向量模型——word2vec进行了介绍,指出相较于以前的方法,其通过模型训练的过程,考虑了文本所在的语境,实验测试表明,该方法的精度更高。
讲座分为上午和下午两场,全天共六小时的丰富内容吸引了共计数百名经管院及其他学院老师和学生的热情参与,报告厅座无虚席。在场的每一位师生都认真地听取报告,还有很多携带笔记本电脑一起操作演练。讲座结束后听众与高老师进行了热烈的探讨和交流,学术气氛浓厚。可以看出,大数据技术和分析方法作为多学科交叉的当今研究热点,受到了不同学科领域的广泛关注,运用大数据、机器学习、人工智能等技术进行的商业和社会问题研究,也将成为高校“新文科”的重要发展趋势。(通讯员:丁校洁, 审稿人:房超)