结构化

画板

1. 什么是结构化

1.1 什么是结构

《数据结构》书中直接给出了关于结构的定义:

数据

元素相互之间的关系被称为结构

关键点:“元素” ,“关系

不同领域中的结构的类型千差万别:

化学领域有分子结构、晶体结构……

生物领域有细胞结构、骨架结构……

文学领域有叙事结构、逻辑结构……

并且,《数据结构》书中同时也说:“对于数据结构这个概念,至今尚未有一个被一致公认的定义,不同的人在使用这个词时所表达的意思有所不同。”

为了在大模型相关领域更清晰的展示“结构”这个概念,列举一些在大模型的输入输出中常见的基本结构:

其中的定义不是特别严谨,仅仅是给大家一个示例

结构名称 表格
示例
元素 key 和 value 节点 节点
关系 key-value对应关系
行列的关联
节点之间的连接关系 节点之间的父子关系(分支关系)
说明 最常见的结构 不太方便用文本表述 可以认为是图的特例;可以用二元组的方式文本表达
结构名称 列表(List) 块(chunk) 目录
示例 + AAAAA
+ BBBBB
+ CCCCC
+ …..
元素 数据项 数据块 目录标题,目录内容
关系 项之间的顺序关系 块之间的顺序关系 目录之间的隶属关系;
同层级目录之间的顺序关系
说明 常见;简单 最基本的文字组织结构 在书等材料中常见;树的特例
结构名称 算法/流程 思维导图  
示例  
元素 输入,输出,判断…. 中心主题、分支节点  
关系 按具体算法/流程组织起来 节点之间的隶属关系  
说明 较复杂的表达形式 树的特例  

通过这些例子可以总结出一些关于大模型的输入输出中常见的基本结构的特点:

1.2 什么是结构化

相比于“结构”的概念,“结构化”的概念则会模糊很多,也没有一个比较官方的定义。

为了更清晰地定义“结构化”,我们来通过列举来研究一下这个操作的常见输入和输出:

“结构化”过程中常见的输入:

“结构化”过程中常见的输出:

这里可以观察到,这些输入并不是没有“结构”,比如书本中的内容就一定会有“目录”结构。并且哪怕是一个最简单的单个文本段落,我们也可以视其为最简单的“chunk”结构。因此,“结构化”不能狭义的理解为让没有结构的文本变的有结构。

同时可以看到,输出一般都是比较简单基础的结构,很少出现如输入一般复杂的结构(思维导图已经算是比较复杂的了)。并且,这里说的“简单”指的是结构的定义本身,而不是具体材料内容的复杂程度:比如,列表形式的物理公式集合的理解难度 会高于 使用思维导图的公园购票指引,尽管列表会是一种更简单的结构。因此,“结构化”也不能狭义的理解为让输入从复杂到简单。

综上,我们给出一个关于“结构化”的初步定义:

选择一种结构,以这种结构来重新表述输入中所蕴含的信息

显然,结构化的核心要点就在于选择的“结构”:

但这些只是我们直觉的猜测,我们需要实际的理论来支撑这些说法

2. 为什么要结构化

2.1 人为什么要做结构化

本节将从哲学角度的思考和对人类认知过程存在的挑战分析两个角度,说明人类为什么需要结构化,即结构化对于人类认知和信息处理的重要性。同时提供了三个认知理论作为理论支撑。

2.1.1 哲学角度的思考与启发

人类在理解和解释世界时,基于对秩序与理解的需求和知识传递与积累的需要,结构化知识能够帮助人在这个局限内更好地组织和理解信息,使得复杂的信息变得有条理和可理解,促进人类解决复杂问题和进行创新思考。

2.1.2 人类认知进程中存在的挑战

面对海量且持续更新的信息环境,人类需要整合来自不同来源和形式的知识。这一过程不仅耗费时间和认知资源,还容易导致信息过载和认知失衡。在处理复杂的认知任务时,个体常常会出现认知偏差和误判。通过分析这一现象,我们可以看到,人类在认知世界时,持续面临着复杂信息环境带来的挑战以及自身认知资源的局限性。具体而言,人类认知世界的挑战主要体现在以下三个方面:
  1. 认知资源有限:人类的认知资源,如注意力、工作记忆和处理能力,都是有限的。这意味着在面对大量信息和复杂任务时,容易产生认知过载,难以有效地处理和储存所有相关数据。
哈佛大学心理学家乔治·米勒的研究表明 [6] :人类短期记忆的容量有限,大多数人一次能够处理的有效信息项目(被称为记忆单位/记忆组块)大约在7±2个之间。
记忆单位/组块:组块是将多个信息元素组合成更大整体以简化记忆和处理的心理策略。比如对于初次接触和记忆的信息,一次最多处理5~9个汉字/词语/阿拉伯字母。 超过这个范围就可能会记不牢。
  1. 信息理解能力有限尽管人类有较强的感知能力和经验知识,面对并处理具有多样性和复杂性的信息或新知识时,全面理解依然显得困难。
  2. 逻辑整合能力有限面对多维信息和复杂问题时,人类的逻辑剖析和整合能力是有限的,进行系统化分析和综合判断是具有难度的。

References:

[1] 谢丽娜,韩正彪,李赞梅.情报学对信息的理解与运用:本体论和认识论视角[J].情报资料工作,2011,(04):30-35.


[2] 朱光亚.从形而上学到现象学:哲学为科学奠基[J].电子科技大学学报(社科版),2013,15(05):58-63.DOI:10.14071/j.1008-81052013.05.009.


[3]李莉.赫伯特·西蒙“有限理性”理论探析[D].苏州大学,2007.


[4]杨斯斐.时间与空间的主观性:康德二律背反的基础[J].大理学院学报,2015,14(07):54-57.


[5]何怀宏.人性结构问题:对《理想国》439E-440A的分析与引申[J].道德与文明,2024,(05):47-56.DOI:10.13904/j.cnki.1007-1539.2024.05.010.


[6] Miller A G ,陆冰章 ,陆丙甫 .神奇的数字7±2:人类信息加工能力的某些局限[J].心理学动态,1983,(04):53-65.


基于上述挑战和思考分析,我们不由得提出一个问题,应如何整合或处理多样复杂的知识或信息,促进人类的认知限度提升和对信息的全面理解和分析?

知识的结构化处理为我们提供了一种解决途径。结构化知识让信息更易于搜索、理解和应用,帮助个体识别和抽取关键信息,过滤冗余数据,并清晰地展示信息间的关系。这种方法不仅增强了信息的可操作性和记忆性,还促进了知识的建构和应用,最大化利用有限资源,促进更全面的理解,从而改善了决策过程及创新能力。

同时,幸运的是,已有相关研究理论为 知识结构化解决这些认知挑战的可行性和必要性 提供了有力支撑:

References:

[7] John Sweller. Cognitive load during problem solving: Effects on learning.


[8] Paul Chandler and John Sweller. Cognitive load theory and the format of instruction.


[9] Iris Vessey. Cognitive fit: A theory-based analysis of the graphs versus tables literature.


[10] Narayan S. Umanath and Iris Vessey. Multiattribute data presentation and human judgment: A cognitive fit perspective.


[11] Zhuoqun Li, Hongyu Lin, Yaojie Lu, Hao Xiang, Xianpei Han, and Le Sun. Meta-cognitive analysis: Evaluating declarative and procedural knowledge in datasets and large language models.


接下来提供对上述三个认知理论的具体分析。

2.1.3 认知理论

1)认知负荷理论

理论背景:认知负荷理论(Cognitive Load Theory)[7-8]是心理学和教育学中的一个重要理论,研究人类在任务执行过程中所承受的认知负载。

核心内容:理论强调人类认知资源总量是有限的。越多的认知资源消耗在整理材料/知识之间的逻辑关系上,那么用于学习或者解题的认知资源越少。

负荷类型:该理论区分了三种类型的认知负荷:内在负荷、外在负荷和相关负荷。

  1. 内在负荷(Intrinsic Load):*任务本身的复杂性决定的认知负担
    • 例子:比如解数学题任务的难度,复杂的思考步骤本身就是挑战,需要深度专注和努力。
  2. 外在负荷(Extraneous Load):由信息呈现和材料组织方式带来的额外负担
    • 例子:比如混乱的教材排版可能分散学习者的注意力。
    • 同时,原论文提供了一个实验作为辅助理解的例子 –【辅助理解外部认知负荷的实验】
  3. 相关负荷(Germane Load):帮助构建知识结构的有效认知努力。这种负荷有助于学习并应得到强化。
    • 例子:比如总结知识点和经验的过程,通过对知识图式的构建和整合。

【辅助理解外部认知负荷的实验】[7]

在工业培训场景下(入厂培训),选择两组刚刚加入的电子厂学徒(有基本的能力和一定的经验),给他们内容相同但结构不同的学习材料自学,同样的时间后通过考试分析他们的学习情况

原始的材料示例:

修改后的教学材料示例:

结果:可以看到,在各项测试中,包括笔试和实操测试,修改组的分数显著高于传统组(笔试组约提升68.3%~69.3%,实操组约提升58.3%~157.1%)。其中M指代分数均值(画框),SD为方差。

和认知负荷理论匹配:修改后的材料大大降低了学习的外在负荷,为学习留下了更多的认知能力。

结论:合理的知识结构化和呈现方式可以优化认知负荷,支持更有效的信息吸收和应用。

知识结构化对于缓解认知负荷的重要性分析:

  1. 简化内在负荷:将复杂问题分解为更易处理的小任务
    • 例子:将复杂的乐高模型分解成几个小部分,逐步完成,降低难度。
    • 例子:按逻辑或主题对知识进行分类和组织,可使原来复杂的内容更易于消化和学习。
  2. 减少外在负荷:优化信息呈现方式,使学习者集中精力于核心内容
    • 例子:使用清晰的乐高说明书,步骤分明,孩子不需要费心整理步骤,专注拼装。
  3. 增强相关负荷:图式知识体系的构建,帮助学习者提升解决问题的模式识别能力
    • 例子:孩子学会按颜色或形状分类积木,形成系统的方法,提高效率。
    • 例子:专家与新手处理问题的方式(见下方)

缓解认知负荷的有效方案–知识的结构化:

(提供一个例子说明 – 专家与新手的差异)

总结:知识结构化不是仅仅对信息的整理,更是对复杂认知任务的处理简化和资源优化。

2)认知匹配理论

核心内容:信息的呈现方式和结构应与人类认知过程或决策任务类型相匹配[9-10]

为什么需要认知匹配:由于人脑是能力有限的信息处理器,当任务环境中复杂度降低时,会导致问题更有效地被解决。针对不同的任务类型使用匹配的知识呈现形式(图形或表格),有助于降低任务和问题的理解难度。

认知匹配理论的具体应用和场景:基于graph和table的特定决策场景

任务 任务类型 数据呈现形式
构建学术论文引用链 空间任务 graph
绘制财务报表 符号任务 table
描述社交实体关系 空间任务 graph
整理家庭收支记录 符号任务 table

基于认知匹配理论的问题解决通用范式的分析[9-10]

(原论文提供图中文字叙述需要加强理解和拓展,见下方修改图)

画板

3)元认知理论

核心内容:人类认知中起关键作用的两种知识:陈述性知识(declarative knowledge)& 程序性知识(procedural knowledge)。前者用于解决“知道是什么”的问题,后者用于解决“知道如何做”的问题。[11]

为什么需要元认知理论支撑知识的呈现:

个体需要具有对自己的认知过程的认知。元认知理论可以帮助学习者根据“知道是什么”和“知道怎么做”两条逻辑,有效识别和调整自己的学习策略,运用和优化知识体系。

决策任务需要区分任务所需的基本信息,和应用该信息所需的方法论。从逻辑层面对知识进行剖析和解构,确保知识不仅被识别,还能被有效转化为决策效能。

总结:基于上述思考分析和三大理论支撑,不难发现,知识的结构化对于人类认知尤为重要。不仅可以优化认知资源的利用,减少信息处理负担,还能促进信息理解和逻辑整合能力的提升。

References:

[7] John Sweller. Cognitive load during problem solving: Effects on learning.


[8] Paul Chandler and John Sweller. Cognitive load theory and the format of instruction.


[9] Iris Vessey. Cognitive fit: A theory-based analysis of the graphs versus tables literature.


[10] Narayan S. Umanath and Iris Vessey. Multiattribute data presentation and human judgment: A cognitive fit perspective.


[11] Zhuoqun Li, Hongyu Lin, Yaojie Lu, Hao Xiang, Xianpei Han, and Le Sun. Meta-cognitive analysis: Evaluating declarative and procedural knowledge in datasets and large language models.


[12] Parag Jain, Andreea Marzoca, and Francesco Piccinno. STRUCTSUM generation for faster text comprehension.


[13] Li Z, Chen X, Yu H, et al. Structrag: Boosting knowledge intensive reasoning of llms via inference-time hybrid information structurization[J]. arXiv preprint arXiv:2410.08815, 2024.


[14] Wang, Jinyu, et al. "PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation." arXiv preprint arXiv:2501.11551 (2025).


[15] Wu, Shirley, et al. "Stark: Benchmarking llm retrieval on textual and relational knowledge bases." Advances in Neural Information Processing Systems 37 (2024): 127129-127153.


[16] Guo, Zirui, et al. "Lightrag: Simple and fast retrieval-augmented generation." (2024).


[17] Huang, Chensen, et al. "Recurrent context compression: Efficiently expanding the context window of llm." arXiv preprint arXiv:2406.06110 (2024).


[18] Liu, Kai, et al. "Educating llms like human students: Structure-aware injection of domain knowledge." arXiv e-prints (2024): arXiv-2407.


[19] Jain, Parag, Andreea Marzoca, and Francesco Piccinno. "Structsum generation for faster text comprehension." arxiv preprint arxiv:2401.06837 (2024).


2.2 LLM为什么要做结构化

人类认知进程对LLMs发展的启发

  1. 知识获取能力和语言能力:人类认知的过程通过感知、选择、记忆和推理来掌握并处理信息。

LLMs虽然不具备人类的感知能力,但通过在大规模语料库进行预训练,学习语言表示和深层语义结构,具备了广泛的世界知识、强大的上下文理解和生成能力。

  1. 知识整合和聚焦的能力:人类通过将先验经验和获取的知识转化为图式结构,可实现根据任务要求快速地聚焦重要的知识内容并拓展应用。

例如,GraphRAG[13][16]范式面向查询聚焦摘要任务或知识密集型推理任务,通过构建图式知识体系并检索最相关的部分,用于回复需要整合多个知识来源类型的问题。

  1. 逻辑推理与决策能力:人类基于自身的先验经验和知识处理能力,在面对复杂问题或决策任务时,通过信息整合和逻辑推理做出合理决策。

例如,现有LLMs基于思维链推理实现模仿人类的step-by-step地思考和问题分析,面对复杂决策问题,通过任务分解、自我反思和multi-agent协作推理来提升表现

2.2.1 知识结构化对于LLMs的重要性分析

主要从LLMs的以下几点现存挑战进行分析。受认知理论(认知负荷理论、认知匹配理论、元认知理论)启发,知识结构化同样为以下问题提供了可行的解决思路。

2.2.2 实验佐证知识结构化对于LLM的重要性

【认知负荷实验】

1)长文本+QA任务中常见的问题:当输入的材料过长或过于复杂,较弱的模型(可以认为整体认知能力较差)无法识别到关键信息

实验:同一组材料和问题,gpt4o成功识别到了关键信息,而Phi-3.5-mini失败了。

与认知负荷理论对应:输入的材料过长或过于复杂代表其认知负荷(外部负荷)较高,当模型较弱时(认知能力)无法承担这样的负荷。

2)来自STRUCTSUM[12]:结构化信息降低了认知负荷,提高了人类的解题速度

实验操作统计人类来在给定不同的内容时(结构化内容、结构化内容+原材料、仅有原材料)回答问题的平均消耗时间(题目比较简单,acc都是100)

结果:回答问题的速度在这些结构化信息的加入下提高了,尤其是在只有结构化内容时会更快。

与认知负荷理论对应:结构化信息降低了认知负荷,提高了人类的解题速度。并且在进一步的只有结构化信息的情况下,进一步减小了认知负荷(排除冗余信息),进一步加快速度

【认知匹配实验】

3)来自StructRAG[13]:不同材料/任务具有不同的最适合结构,使用单一固定类型的结构无法同时在各个不同任务上取得良好的性能。

消融实验:相比于使用路由模型(即根据具体材料内容选择一个最适合的目标结构),使用一种固定结构进行知识构造,会带来巨大的性能下降。

与认知匹配理论对应:不同的任务/材料有不同的适宜结构

【元认知理论实验】

4)来自MCA[11]:程序性知识/陈述性知识/综合知识分别作为提示进行测试,综合知识情况下任务完成最好。

在32个公开可用的大语言模型和13个涵盖不同类型任务(包括数学、常识和推理)的评估数据集上进行了实验。

这里的得分是指:

在给定的数据集-模型pair中,定义$e_o$是原始(无知识情况)的错误率,$e_p$是给定程序性知识后的错误率,则程序性知识得分为$score_p=\frac{e_o-e_p}{e_o}$;陈述性知识得分$score_d$和综合知识得分$score_c$同理

结论:回答的得分情况,在大多数任务中,同时利用两种知识,在大多数任务中会带来明显的收益提升【整体比较,黄色框】。陈述性知识的收益大于程序性知识的收益【蓝色框】。程序性知识的收益仅在与简单逻辑推理任务相关的任务中大于陈述性知识。【红色框】。

这与元认知理论相符:令LLM同时具有任务所需事实信息(陈述性知识),并掌握应用知识所需的方法论(程序性知识),会提升决策效果。

总结:三大认知理论在LLM发展中的支撑作用,以及结构化知识的价值体现

认知理论支撑 LLM现存挑战 结构化知识价值体现
认知负荷理论 长文本信息过载 压缩冗余信息,降低处理复杂度
认知匹配理论 信息呈现形式与任务场景不匹配 定义或学习 任务-适配结构的映射
元认知理论 对知识与任务的逻辑关系感知不足 掌握”知道是什么”和“知道怎么做”

References:

[7] John Sweller. Cognitive load during problem solving: Effects on learning.


[8] Paul Chandler and John Sweller. Cognitive load theory and the format of instruction.


[9] Iris Vessey. Cognitive fit: A theory-based analysis of the graphs versus tables literature.


[10] Narayan S. Umanath and Iris Vessey. Multiattribute data presentation and human judgment: A cognitive fit perspective.


[11] Zhuoqun Li, Hongyu Lin, Yaojie Lu, Hao Xiang, Xianpei Han, and Le Sun. Meta-cognitive analysis: Evaluating declarative and procedural knowledge in datasets and large language models.


[12] Jain, Parag, Andreea Marzoca, and Francesco Piccinno. "Structsum generation for faster text comprehension." arxiv preprint arxiv:2401.06837 (2024).


[13] Li Z, Chen X, Yu H, et al. Structrag: Boosting knowledge intensive reasoning of llms via inference-time hybrid information structurization[J]. arXiv preprint arXiv:2410.08815, 2024.


[14] Wang, Jinyu, et al. "PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation." arXiv preprint arXiv:2501.11551 (2025).


[15] Wu, Shirley, et al. "Stark: Benchmarking llm retrieval on textual and relational knowledge bases." Advances in Neural Information Processing Systems 37 (2024): 127129-127153.


[16] Guo, Zirui, et al. "Lightrag: Simple and fast retrieval-augmented generation." (2024).


[17] Huang, Chensen, et al. "Recurrent context compression: Efficiently expanding the context window of llm." arXiv preprint arXiv:2406.06110 (2024).


[18] Liu, Kai, et al. "Educating llms like human students: Structure-aware injection of domain knowledge." arXiv e-prints (2024): arXiv-2407.


[19] Jain, Parag, Andreea Marzoca, and Francesco Piccinno. "Structsum generation for faster text comprehension." arxiv preprint arxiv:2401.06837 (2024).


2.2.3 关于未来工作的见解

3. 要如何结构化

接下来我们来看现有的一些相关工作都选择了哪些“结构”(3.1)如何进行“结构化”(3.2),且“结构化”为自己的任务带来了多少增益(3.3)**。

3.1 现有的工作使用的“结构”

工作名称缩写 团队 具体任务 被结构化的输入的类型 目标“结构”
GraphRAG [1] 微软 长文本+QA 播客、各个领域的长知识文档 Graph
StructRAG [2] 国科大、阿里 长文本+QA 播客、各个领域的长知识文档 Table,Graph,Algorithm,Catalogue,Chunk
StruXGPT [3] 浙大、阿里 长文本+QA 各个领域的长知识文档/预训练文档 一个特定的3层目录结构:
(1) Scope:概括主题
(2) Aspect:进一步细分
(3) Description:详细的描述
STRUCTSUM [4] 谷歌 长文本+QA 各个领域的长知识文档(WIKI40B) 表格、思维导图
ToRA [5] 清华、微软 数学推理解答 数学问题的解答过程 代码(算法)
CodePlan [6] 清华、蚂蚁 推理问题解答 推理问题的解答过程 伪代码(算法)
LMUnit [7] Contextual AI,斯坦福 Reward Model 评分 RL中policy模型的回答 一系列的不同角度的评估回答质量的问题(列表)
DeepSeek GRM [8] DeepSeek Reward Model 评分 RL中policy模型的回答 一系列回答质量评分原则(列表)

总结

Insight:

[1] From Local to Global: A GraphRAG Approach to Query-Focused Summarization
[2] STRUCTRAG: BOOSTING KNOWLEDGE INTENSIVE REASONING OF LLMS VIA INFERENCE-TIME HYBRID INFORMATION STRUCTURIZATION
[3] Enhancing LLM’s Cognition via Structurization
[4] STRUCTSUM Generation for Faster Text Comprehension
[5] ToRA A Tool-Integrated Reasoning Agent for Mathematical Problem Solving
[6] CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
[7] LMUnit: Fine-grained Evaluation with Natural Language Unit Tests
[8] Inference-Time Scaling for Generalist Reward Modeling

3.2 现有的工作“结构化”的方式

| 名称缩写 | 具体任务 | 被结构化的输入的类型 | 为什么要“结构化” | “结构化”具体方法 | | — | — | — | — | — | | GraphRAG | 长文本+QA | 播客、各个领域的长知识文档 | 传统RAG基于embedding(类似关键词搜索)的搜索精度差:
“就像翻阅一本食谱书一样。使用关键字搜索“炒鸡蛋”或“西红柿鸡蛋面”并找到说明,它速度很快,对于简单的问题非常有效。
但是,如果你对这些菜肴背后的文化背景或是想知道为什么某些成分能够协同作用增加风味感兴趣,仅仅关键字搜索可能就显得力不从心。例如,西红柿和鸡蛋为何能搭配得如此完美?这可能和一些化学原理有关。” | 在任务开始前的索引阶段,提前处理现有文档成为一系列图谱(图结构):1,先将文档切分为文本块,2,然后提取一系列实体关系(可以理解为一系列“主谓宾”陈述句,“主”“宾”以“谓”联系起来),3,根据这些关系构建图结构的知识图谱。4,根据现有的图谱的语义信息,将有相似语义的图谱聚合起来,成为一个“社区” 5,最后,为每一个社区生成描述,方便接下来的查询
实际使用的查询阶段会根据问题本身的语义信息和各个社区的描述进行匹配,一步步找到具体的图谱的某一部分,辅助最后的回答。
| | StructRAG | 长文本+QA | 播客、各个领域的长知识文档 | “参考人类思考流程:人类通常不会局限于简单阅读散乱的原始内容,而是会将这些信息信息汇总成结构化知识,再利用这些结构化信息进行思考推理。” | 首先使用一个路由模型从5个结构中选择出一个目标结构,然后再使用Prompt + LLM对输入的文档进行结构化。结构化后内容辅助长文本+QA任务。(减少外在负荷)
同时,还尝试对当前问题进行进一步拆解,变成一个个小问题来回答(减少内在负荷)
路由模型可以是Prompt+大LLM,也可以是一个经过DPO训练的7b小模型。
DPO数据构建方法:同时用5种结构化内容分别辅助来回答当前问题,使用LLM来判断哪种结构结果最好,最好的结构作为DPO数据的chosen response,其他结构作为rejected response。
| | StruXGPT | 长文本+QA | 各个领域的长知识文档 | “模拟人类的认知过程,将简单的、连续的文本句子转化为有序的、层次化的知识结构。” | 使用Prompt+LLM或者一个专门训练的小模型,将输入的文档变为一个特别设置的3层目录结构。结构化后内容代替原材料辅助解决QA任务。


同作者的另一篇论文研究的就是在训练阶段引入结构化内容:

+ 模型会在训练的过程中时刻都在回顾整个知识结构,且建立了当前知识与结构的强联系
+ 在提到相关知识时,模型可以快速回忆起结构,并根据结构快速的回忆更多的相关知识
+ 还有一点可能是更好的“注入”:CPT使用的数据在知识点层面可能是不全面的,那么在CPT时以以上结构形式进行训练,比如结构中一半的结点是原有的知识点(但CPT数据集里没有),一半是CPT新加入的知识点,模型能很快的构建起新知识点和老知识点之间的联系 | | STRUCTSUM | 长文本+QA | 各个领域的长知识文档(WIKI40B) | “输入信息过多,虽然能够基于文本响应用户查询,但往往无法以易于理解的方式充分构建和组织这些信息。这可能导致信息处理瓶颈,阻碍用户有效地从文本中提取有意义的洞察。” | 表格:(a)首先将输入文本根据语义和主题划分为多个文本段落(b)然后使用 Prompt + LLM,为每个小段落单独生成一个表格和标题。

思维导图:迭代式(a)生成一个中心概念作为根节点(b)在每次迭代中,使用few shots+LLM,决定是进一步扩展当前思维导图还是停止迭代。(c)如果选择扩展,使用few shots+Prompt,向选择的节点添加分支。
| | ToRA | 数学推理解答 | 数学问题的解答过程 | “自然语言适用于语义分析、规划和抽象推理(例如常识推理),但在精确计算、符号操作和算法处理方面存在困难。相反,代码擅长严谨的操作,可以将复杂的计算外包给方程求解器等专用工具。” | 结构化主要出现在训练数据构建过程中。使用fewshot+Prompt+LLM为现有数学问题先生成自然语言形式的rationale解答,然后再对应生成代码形式的回答。
构建的数据会用来训练模型,让模型生成可以通过生成代码和rationle并调用工具运算来回答数学问题。
| | CodePlan | 推理问题解答 | 推理问题的解答过程 | “代码结构能有效地捕捉复杂推理所固有的丰富语义和流程步骤” | 结构化主要出现在训练数据构建过程中。Prompt+代码LLM 对现有的question-response pair 使用python代码形式来重新描述response的逻辑。
构建的数据会用来训练模型,让训练后的模型可以通过先生成代码来辅助回答推理问题。
| | LMUnit | Reward Model 评分 | RL中policy模型的回答 | “直接使用RM模型或prompt的 LLM 来评分将会把包含很多细节包含很多方面的评估压缩为不透明的粗粒度指标,难以解释或控制。” | 结构化主要出现在RM框架评估response质量时。使用Prompt+LLM为输入的question-response pair 生成一系列能从各个角度评估response质量的单元问题。
| | DeepSeek GRM | Reward Model 评分 | RL中policy模型的回答 | “在一般的领域,奖励生成(指RL过程中为response给出reward)更具挑战性,因为奖励标准更加多样化和复杂,并且通常没有明确的参考或基本事实。” | 结构化主要出现在RM框架评估response质量时。使用Prompt+训练好的生成式RM为输入的question-response pair先生成一系列评分的原则和每个原则的权重。
|

Insight:

3.3 现有的工作的“结构化”应用场景和效果

其中的提升具体数字有的是相对提升(baseline较多基本水平不一致)有的是绝对提升。

工作名称缩写 被结构化的输入的类型 目标“结构” 具体任务 “结构化”相比不结构化的实际提升效果
GraphRAG 播客、各个领域的长知识文档 Graph 长文本+QA 在Graph结构的RAG效果相比于传统RAG整体性能提升了26%-52%。
StructRAG 播客、各个领域的长知识文档 Table,Graph,Algorithm,Catalogue,Chunk 长文本+QA 相比于不使用结构化,结构化后整体效果相对提升了5%-15%。
而如果错误的使用了结构化(不使用router的结果而是随机指定一个结构来结构化,原始数据在最后QA时不会使用),效果反而会相对降低10%-25%
StruXGPT 各个领域的长知识文档 一个特定的3层目录结构:
(1) Scope:概括主题
(2) Aspect:进一步细分
(3) Description:详细的描述
长文本+QA 加入结构化后,长文本+QA的性能整体提升了2%-4%(绝对提升)
STRUCTSUM 各个领域的长知识文档(WIKI40B) 表格、思维导图 长文本+QA 相比于只使用原始输入材料,加入结构化后的知识人类解题的速度快了大概10%-20%,而如果只使用结构化后的知识,人类解题速度甚至会快30%-40%。
ToRA 数学问题的解答过程 代码(算法) 数学推理解答 相比于只使用自然语言来回答,使用结构化的代码形式来辅助回答会有极大的增益(相对提升20%-30%,也包含post training带来的影响)
CodePlan 推理问题的解答过程 伪代码(算法) 推理问题解答 相比于只使用自然语言来回答,使用结构化的代码形式来辅助推理回答会有极大的增益(相对提升10%-20%,也包含post training带来的影响)
LMUnit RL中policy模型的回答 一系列的不同角度的评估回答质量的问题(列表) Reward Model 评分 整体会有2%的增益(绝对提升),也包含post training带来的影响
DeepSeek GRM RL中policy模型的回答 一系列回答质量评分原则(列表) Reward Model 评分 训练前的LLM:加入“原则”生成大概会有2-6%的绝对增益

而对训练后的生成式RM:“原则”生成大概会有2%的绝对增益

Insight:

4. 总结

认知理论支撑 LLM现存挑战 结构化知识价值体现
认知负荷理论 长文本信息过载 压缩冗余信息,降低处理复杂度
认知匹配理论 信息呈现形式与任务场景不匹配 定义或学习 任务-适配结构的映射
元认知理论 对知识与任务的逻辑关系感知不足 掌握”知道是什么”和“知道怎么做”