MAXQDA 中的词频分析
词频分析真的能在定性研究中揭示任何有意义的信息吗?如果你本能地持怀疑态度,那么你并不孤单。
词频分析的核心在于计算词数,乍一看似乎与定性分析的解释性精神相悖。但当你被数十份文字记录、数百份政策文件或数千条在线评论淹没时,很容易只见树木不见森林。词频分析提供了一种缩小视野的方法,可以映射重复出现的语言,揭示隐藏的主题,并确定哪些数据部分需要进一步研究。
在本指南中,我们将引导您了解如何有效地使用 MAXQDA 的词频工具。通过从常见研究场景中提取的实际示例,您将了解词频分析如何支持更具探索性和反思性的工作流程。
如何使用本指南
快速了解词频工具的功能以及为什么它值得添加到您的工作流程中。
按照运行词频分析的步骤来设置和运行您自己的计数。
跳转到解释结果以将数字转化为见解。
在结果表中的快速操作中获取省时的技巧,以便更智能地处理您的结果。
浏览真实世界应用示例的用例以获得启发。
深入研究词典和 Go 单词列表等高级功能,以进行更有针对性的分析。
检查数字以外的阅读材料,寻找常见的陷阱和反射做法,以确保您的发现有意义。
如果您只想了解关键要点,请跳至“简而言之”查看简短版本。
- MAXQDA 词频工具的作用
MAXQDA 包含一个专用的词频工具,它是MAXDictio 模块的一部分。该功能会扫描选定的文本,统计不同的单词,并生成一个可排序的表格,显示每个单词的出现频率。它足够灵活,可以处理访谈、焦点小组、实地笔记、社交媒体下载、政策文件、电子表格等。
简而言之:选择数据,运行工具,即可立即查看哪些词在数据集中占主导地位、它们出现的频率以及出现的位置。最棒的是,所有操作都通过直观的点击界面完成。
- 在 MAXQDA 中运行词频分析
准备好亲自尝试词频分析后,请前往MAXDictio ›词频。此外,您还可以点击 MAXDictio 菜单中的“词频”标签,仅统计词典或 Go 词表中出现的单词,这些选项将在文章后面解释。
一旦启动该工具,就会出现“词频”选项窗口(如下所示),您可以在其中设置分析以满足您的项目需求。

要运行词频分析,请按照以下步骤操作:
a. 选择要分析的内容
在开始之前定义你的字数范围。
激活文档:专注于特定文件,例如初级参与者的访谈或仅来自初创公司的招聘广告。
检索到的片段:仅分析当前显示的编码片段。
所有文档:如果未设置过滤器,MAXQDA 将包含所有内容。
忽略元素:使用复选框排除链接、电子邮件或其他噪音,在网络数据或导出的成绩单中特别有用。
此步骤可帮助您衡量重要事项并避免意外噪音。
反身性检查
关于范围:
仅启用某些文件反映了一种理论选择。确保你的范围与研究问题相符,而不是为了方便。在你的备忘录中用一句话解释为什么这些文件被纳入,而其他文件被排除。
b. 跨组比较
选择如何细分项目不同部分的字数。
按文档:发现异常值或驱动特定术语的文件。
按文档组或集合:比较“第一波访谈”或“30 岁以下参与者”等组。
按焦点小组发言人:对比角色或参与者(仅在焦点小组数据中可见)。
按代码:探索特定主题或分析类别中使用的语言(分析检索到的片段时可用)。
这些细分揭示了在聚合视图中不可见的模式。
c. 微调输出
控制字数的计算方式,以使结果与您的研究问题相一致。
最小字符数:忽略短填充词(例如,设置至少 4 个字符以跳过“the”或“and”)。
停用词列表:应用或创建一个列表来删除常见但不相关的词(例如招聘广告中的“团队”或法律文本中的“部分”)。
区分大小写:如果需要,请分别计算“Research”和“research”,这对于专有名词和首字母缩略词很重要。
词形还原:决定是否将单词变体归为一类(例如,“gave”、“given”、“gives” → “give”),还是保留它们之间的区别。这有助于区分总体趋势和细微差异。
有了这些设置,您的输出可能会更清晰、更容易解释。
反身性检查
关于词形还原:
将“regulate”、“controlled”和“regulation”等形式归类会改变法律或政策文本中的含义。请问:这些形式在你的语境中是否在概念上相互关联,还是应该分别处理?请在项目备忘录中记录你的选择。
关于停用词:
停用词列表并非中立。删除频繁但“信息量不足”的词语可能会影响可见的模式。记录删除的内容及其原因,然后分别使用停用词列表和不使用停用词列表重新运行一次,看看发生了什么变化以及如何变化。
- 解释词频分析结果
现在到了有趣的部分:理解出现的内容并用它来指导您的分析。
单击“确定”后,MAXQDA 将处理数据并生成词频表。

MAXQDA 词频结果表的示例屏幕截图,显示词数、词长、频率等列。
顶部栏
窗口的顶部总结了范围和大小:分析的文档数量、解析的总单词数、唯一单词数以及类型标记比率(唯一单词÷总单词;对文本长度敏感的词汇多样性的粗略衡量标准)在 MAXQDA 手册中了解更多信息。
表列
您通常会看到以下列:词数、词长、频率、占比、排名、文档数和文档数(列的集合会根据分析设置而变化)。右键单击标题行可以管理列的显示。
提示
如果启用了词形还原功能,将鼠标悬停在某个单词上会显示其分组变体,如上图所示。对于已合并的术语,会显示一个图标,将鼠标悬停在该行上会显示哪些术语被合并了。
以下是理解这些数字的策略:
寻找主导词和重复出现的主题
高频词可以暗示中心话题、文化关键词或反复出现的关注点。在招聘广告中,你可能会注意到诸如“团队”、“灵活性”或“福利”之类的词语。在访谈记录中,参与者可能会频繁提到“信任”、“公平”或“压力”。这些词频的出现频率可以凸显谈话的重点,但要理解其中的原因,你仍然需要阅读前后文。将词频作为深入阅读的切入点,而不是将其作为独立的结论。
跨组和代码比较
当您选择区分结果时,MAXQDA 会显示每个单词在文档、组、集合或编码片段中出现的频率。这可以让您比较不同子组或主题之间的语言使用情况。例如,在焦点小组研究中,您可以按说话者进行区分,以比较参与者的词汇量。在政策研究中,按章节代码进行区分可以显示哪些部分强调了特定的概念。这些细分可以揭示汇总计数中可能无法体现的变化。
使用频率指导编码
频率模式可以指导您的编码决策。一个常用词可能值得拥有自己的代码,尤其是在它与您的研究问题相符的情况下。相反,一个罕见但理论上重要的术语可能表明需要更有针对性的搜索或阅读。您甚至可以根据频率表创建文档集,以检查关键术语在数据中的出现位置,从而帮助您识别值得进一步分析的片段。
利用词类过滤
MAXQDA 允许您按词性过滤频率表,例如,将结果限制为名词、形容词或动词。这在您查找特定类型的语言时尤其有用。如果您研究的是情绪基调,您可能会关注形容词。如果您追踪的是动作或主体,动词可能更重要。通过缩小范围,您可以减少噪音并定制输出以符合您的分析目标。“词类”选项窗口允许您选择要包含在分析中的文本语言和词类。
使用表格列来发现模式
MAXQDA 的结果表不仅仅包含频率。诸如词长、词占比、排名以及“文档百分比”(您分析的文档中有多少包含该词)等列可以提供更多线索。您还可以切换表格单元格中显示的指标,使其显示排名、文档数量或文档百分比,而非频率。这在跨文档集或说话者群体进行比较时尤其有用。例如,一个术语在一个群体中排名很高,但在另一个群体中却只短暂出现,这可能突显出一个有意义的对比。并非所有选项都适用于每个分析视图,但在适用的情况下,此功能可以为您的解读增添另一个维度。
一个迭代过程
词频分析并非只是一次性的数字游戏。它可以指导您的整个工作流程。从早期发现关键词,到优化代码并呈现精美的视觉效果,每一步都增加了解读的深度。
放大:观察实际数字
为了说明起见,让我们将所有内容与示例结果表放在一起。
MAXQDA 词频表的屏幕截图,已筛选为名词并按文档区分,显示了六次美国就职演说(2001 年至 2021 年)中的前 10 个术语,并列显示频率、排名和文档百分比。

上表显示了六次美国总统就职演说(2001 年至 2021 年)中出现的前 10 个名词,并按文献进行了区分。这种配置更侧重于概念丰富的语言,同时允许对不同发言者进行比较。
从分析角度来看,这种设置平衡了广度(数据集中的频率)和特异性(文档间的差异)。追踪名词可以捕捉核心主题和象征性词汇。如果你关注的是主体、情态或评价立场,那么你或许应该筛选动词或形容词,因为每种词类都能为话语提供独特的视角。
仔细阅读可以发现几个有用的模式:
核心术语是这一体裁的基石。
“民族”(nation)一词在所有六篇演讲中均有出现,且整体排名最高,这提醒我们,就职演说是国家认同的仪式。它的持续使用很可能反映了团结与归属感的基础词汇。你或许不需要用“民族”这个词来编码,但它的存在设定了话语的基线。
有些词语跨越时空,有些则始终如一。
“人民”、“国家”和“世界”等词在所有文献中均有出现,表明其对集体行动者和全球定位的持续关注。相比之下,“自由”一词在布什2001年的演讲中出现激增(25次提及),但在拜登的演讲中却消失了。这些变化引发了语境解读:这种衰落是政治意识形态、历史时刻还是修辞策略的结果?
异常值很重要。
“公民”一词呈现出明显的差异:它在布什2005年的演讲中出现了九次,但在拜登2021年的演讲中只出现了一次。这种偏差可能指向局部主题,例如对公民义务的关注,或对国家与公众关系的特定框架。点击浏览这些片段并仔细阅读。异常值通常具有意识形态的分量。
并非所有常用词都有助于分析。
像“今天”和“日子”这样的词虽然常见,但可能大多是礼仪性的;它们标志着场合,而不是对演讲主题核心的贡献。使用频率并非作为重要性的指标,而应作为指导:有些词是支撑,有些则是信号。
文档百分比揭示了使用范围。
“文档百分比”列表示某个术语在文档中的分布程度。“国家”、“人民”和“国家”在100%的演讲中都出现了,但“自由”和“日子”只在六篇演讲中的五篇中出现。这是一个细微的差异,但它可能标志着语气或主题焦点的转变,尤其是在较小的数据集中。当您想区分通用词汇和特定时代或特定说话者的语言时,可以参考此处。
将计数作为起点,而不是结论。一旦一个词引起了你的注意,无论是因为它出现频率高、缺失还是位置奇怪,都可以使用“关键词上下文”或“词源探索”
等工具进行跟进。这些工具可以让你了解一个词是如何逐句使用或与其他词的关系的。词源绘制了一幅森林图;当你开始走进森林时,解读就开始了。想要更深入地了解 MAXQDA 的“词源探索”,请查看我们关于“最喜欢的词源探索功能”的博客文章。
这种表格很有价值,因为它将大量的话语结构压缩成清晰易读的形式,将宏观模式识别与细读的潜力结合起来,这对于有效的混合方法文本分析至关重要。
请记住:
频率表会指出可能需要进一步研究的现象,但不会告诉你这些现象在具体语境下的含义。
- 结果表中的快速操作
右键单击结果表中的任何单词可以:
将其添加到停用词列表或词典中
激活它出现的文档
根据搜索结果创建文档集
在 Word Explorer中打开该单词以获取更深入的上下文。
拖放即可合并相似术语:将一个术语拖放到另一个术语上,即可合并概念上相关的词语。合并后的行标有求和图标。将鼠标悬停在该图标上,即可查看工具提示,其中列出了该行包含的所有术语。要撤消操作,请点击表格工具栏中的撤消箭头。
点击“词云”图标即可快速查看主要词汇,这对于演示文稿或快速识别关键语言模式尤其有用。点击此链接了解更多关于 MAXQDA 词云功能的信息。
双击某个单词即可打开详细的“搜索结果”窗口,查看每个单词的上下文。在这里,您可以:
自动编码搜索结果,或
将每个文档的命中次数保存为变量 - 跨不同数据类型的用例
为了说明 MAXQDA 词频工具的灵活性,让我们来看看几个真实场景。
招聘广告中的招聘趋势
探索词汇选择如何在招聘话语中反映组织文化。
假设您正在研究科技招聘广告中雇主如何描述远程工作。您将近期发布的招聘信息导入 MAXQDA,激活它们,并进行频率分析。“远程”、“混合”和“团队”等词语占据主导地位。按文档类别(例如,初创公司 vs. 成熟公司)进行区分后发现,规模较小的公司更注重“灵活性”和“创新”,而规模较大的公司则更注重“福利”和“职业发展”。
这种词汇上的对比或许反映了不同的组织文化和招聘策略:初创公司注重自主性和创业者身份认同,而大型企业则强调制度稳定性。本文的词频分析突显了企业如何在招聘语言中构建其身份认同和价值观,从而引发了更深入的探究,即企业如何通过修辞手段构建工作条件以吸引不同的劳动力群体。这也促使我们反思宣传的价值观与实际职场实践之间的一致性(或不一致性)。
发现参与者词汇
看看词频如何揭示护理叙述中的代际差异。
在一项关于照护的研究中,你可以对“挑战”类别下的片段进行频率分析。“时间”、“支持”、“压力”和“家庭”等词出现的频率最高。区分说话者会发现,年轻参与者更多地提到“时间”和“工作量”,而年长参与者则更多地谈论“健康”和“支持”。
这些模式表明,不同代际在照护责任的体验和构建方式上存在差异。对于较年轻的受访者来说,这种紧张关系似乎存在于有偿劳动和非正式照护之间,而对于较年长的受访者来说,关注点则转向健康状况恶化和情感网络。这些模式可能表明与年龄相关的差异或角色紧张,这些方面值得进一步编码或纳入你的理论框架。
社交媒体行动主义
追踪激进主义话语如何通过重复的术语来构建紧迫感和正义。
在分析环保运动的社交媒体评论时,您可以通过“忽略”选项排除超链接和用户名,并应用停用词列表来删除特定平台的词汇。统计显示,“气候”、“正义”、“青年”和“未来”是反复出现的主题。
这些反复出现的词语模式或许暗示着一种由代际紧迫感和道德诉求构建的话语。“正义”和“青年”的突出地位尤其与以不平等、责任和时间利害关系为中心的气候正义修辞相呼应。与其将这些词语视为独立的发现,不如观察它们的出现频率,关注情感和时间性在行动主义传播中是如何被调动起来的,从而开辟一条通往话语或框架分析的道路。
政策文件和法律文本
使用词汇频率比较不同国家背景下的政策范式。
为了进行比较政策分析,您可以按国家/地区对环境法规进行分组,并按组别区分频率计数。表格可能显示,一个国家/地区使用“可持续”和“可再生”等术语,另一个国家/地区强调“合规”和“义务”,而第三个国家/地区则侧重于“创新”和“激励”。
这些词汇选择可能反映出不同的政策逻辑,例如对可持续性、监管或市场激励的关注。在这种情况下,频率分析提供了一种早期发现政策制定方式差异的方法。它还可以为有针对性的编码方案提供信息,或指导深入比较话语分析的选择。
- 高级:词典和Go单词表
正如我们之前简要提到的,除了简单的计数之外,您还可以将分析范围限制在词典或 Go 词汇表中列出的特定单词。这两个选项都支持有针对性的探索,而无需您逐一浏览每个单词。这将重点从涌现的模式转移到理论驱动的查询,从而支持演绎或溯因分析策略。
字典
当您选择MAXDictio ›词频 › 词频(仅限词典中的单词)时,MAXQDA 会过滤计数,使其仅包含当前活动的用户自定义词典中的单词。当您使用预定义的相关类别(例如“气候相关术语”、“技能关键词”或“政治修辞”),并希望在不受无关词汇干扰的情况下跟踪它们在数据集中的出现频率时,此功能尤其有用。
对于定性研究者来说,词典不仅仅是过滤器,更是可操作的概念框架。一本精心构建的词典可以反映你的理论取向。例如,一个关于民族主义的话语分析项目可能包含“领土”、“人民”和“威胁”等类别,每个类别都有其独特的词汇变体。通过将频率计数限制在与你的分析视角相符的术语上,你可以更精确地绘制话语模式、追踪意识形态,或测试和完善你的理论观点。
MAXQDA 中的词典是搜索项的结构化集合,按您定义的类别分组。它们可以是简单的关键字列表,也可以是包含子类别和定制匹配规则(例如区分大小写或全词匹配)的更复杂的层次结构。您可以在项目之间重复使用词典,从 Excel 或 TXT 文件导入词典,并在探索数据时以交互方式构建词典。
有关创建、组织、导入和管理字典的详细步骤,包括如何跨项目使用它们以及如何将它们链接到您的代码系统,请参阅MAXQDA 用户手册中的“管理字典”。
Go单词表
当您选择MAXDictio ›词频 › 词频(仅限 Go 词)时,MAXQDA 会将频率计数限制在您当前活动的 Go 词表中的单词。这在概念上与停用词表相反:Go 词表不会排除不需要的词,而是仅包含您想要分析的单词。
对于定性研究人员来说,Go Word Lists 提供了一种将分析重点引入频率分析的方法。通过预先指定哪些词汇能够反映您的研究兴趣,Go Word Lists 有助于过滤掉词汇噪音和直接与您的概念框架相关的表面模式。无论您对“正义”、“风险”还是“治理”相关的语言感兴趣,将频率计数缩小到定义的词汇表都有助于您在数据中更精确地追踪这些主题。
当您处理大型或噪声语料库、进行跨案例比较或应用演绎编码策略时,Go 词汇表尤为有用。在纵向或多地点研究中,一致的 Go 词汇表还有助于确保通过相同的词汇视角分析不同的数据集。
要创建或编辑 Go 词表,请前往MAXDictio › Go 词表。编辑器的功能与停用词表窗口类似,可让您跨项目添加、删除、导入或管理词表。
有关如何管理 Stop and Go 单词列表的完整文档,请参阅MAXQDA 用户手册。
- 超越数字的阅读:注意事项和反思实践
词频分析可能是一个强大的工具,但如果使用不当,它可能会掩盖而非揭示含义。下文将介绍频率统计数据可能产生误导的主要原因,以及如何在 MAXQDA 中避免这些陷阱的技巧:
为什么计数会产生误导
量化错误:将数字突出性提升到分析重要性可能会将频率视为重要性的代理,而不是进一步解释的启发式方法。
多义词与实际语境:同一个词(“stress”)可能表示生理压力、语法强调,甚至是双关语。频率会混淆这些语境,可能会夸大一些无关紧要的同音词,同时掩盖其原本截然不同的含义。
结构性沉默:边缘化群体通常以省略、委婉或缺席的方式出现在数据中。正是由于权力关系抑制了明确的表达,他们的担忧才会被记录下来。
类型惯例:高度仪式化的类型嵌入了公式化的措辞,这些措辞倾向于风格支架而不是实质性主题。
词汇差异:具有丰富词形变化或有效复合词的语言将语义负荷分散到许多表面形式上,从而降低了个体频率并使跨语言比较复杂化。
实用保障措施
反复回顾上下文:找到一个突出的术语后,启动 MAXQDA 的“上下文关键词”或“词汇探索器”。在编码或解释之前,至少阅读五个相关的句子。
反身性地记录决策:对于每一个停用词、词形还原或去词决策,在你的项目备忘录中添加一条注释,解释其理论依据(例如,“合并‘regulation/regulatory’以追踪法律框架”)。这有助于记录你的推理过程,并创建清晰的决策轨迹。
比较不同组别:对不同的文本组(例如“初级员工”与“高管”)进行相同的分析。如果一个词在一个组中频繁出现,而在另一组中却很少出现,这种对比可以揭示出观点或权力动态的差异。
检查遗漏的模式:降低最小字符数阈值,并在一次测试中禁用停用词。如果出现新的主题,请重新考虑之前的过滤;如果没有,则说明您最初的设置很可能保留了分析信号。
追踪稀有但理论相关的术语:为理论上重要但不常见的术语创建代码。通过 MAXQDA 的变量或代码统计数据追踪它们的分布,以便对不太常见但重要的模式保持开放态度。
- 简而言之:既要看到树木,又要看到森林
MAXQDA 的词频功能可帮助您绘制森林地图,避免迷失在树林中。它会显示哪些地方树冠茂密,哪些地方路径分叉,以及哪些空地值得仔细观察。地图并非徒步路线,所以请随身携带,结合上下文阅读,记录您的决定,并不断调整路线。
词频分析并非追逐最大的数字,而是将其视为循序渐进的线索。MAXQDA 的词频工具可让您专注于重要的语言模式,无论是识别重复出现的术语、突出不同类别之间的差异,还是找到值得仔细阅读的段落。
关键在于仔细界定你的研究范围,使用“停停列表”或“词典”等工具来优化计数,并在得出结论之前务必回顾周围的环境。高频词可以引导你的注意力,但只有当你跨组比较、反思哪些数据存在(哪些数据缺失)并记录下影响你研究结果的决策时,意义才会显现。
简而言之:
关键在于将计数视为路标,而非结论。通过仔细的编码和上下文,频率表将成为您数据的有力切入点。
现在就试试:打开 MAXQDA,对一小部分数据运行词频分析,开启按组区分功能,选择三个重要的术语,并在“关键词上下文”中分别打开。写一份 5 行备忘录,说明你的理解有哪些变化。如果备忘录为空,请使用不同的设置重新运行,然后再试一次。
关于作者

Xan(他/他)最近获得了社会学硕士学位。他现在在 VERBI Software 工作,主要负责测试 AI 原型、撰写有关 MAXQDA 的文章,偶尔也会将论文的回顾整理成博客文章。