eLife：提高人类神经科学的精度（涵盖磁共振、脑磁图、脑电图、皮肤电活动、眼动追踪、内分泌学等多方面的测量建议）

摘要

人类神经科学一直在突破可测量的边界。在过去的十年中，对统计功效和可重复性的关注(不仅适用于一般科学而且特别适用于人类神经科学领域)引发了广泛的讨论。这种讨论的一个重要观点是需要更大的样本量，这自然会增加统计功效。另一种方法是提高测量的精度，这也是本文的重点。尽管提高测量精度对于增加统计功效的效益和增加样本量一样重要，但该方法经常被忽视。然而，精度一直是人类神经科学中良好科学实践的核心，研究人员依靠实验室传统或经验法则来确保其研究具有足够的精度。本综述鼓励采用更系统的方法来提高精度。首先介绍了测量精度及其对人类神经科学研究的重要性。然后，阐述了一系列神经科学方法(MRI、M/EEG、EDA、眼动追踪和内分泌学)中精度的决定因素。最后，讨论了如何对精度和各自见解的应用进行更系统地评估，以提高人类神经科学的可重复性。

前言

了解人类大脑的功能组织取决于研究中使用的测量方法类型、质量，特别是精度。人类神经科学的实验研究涉及多个步骤(设计和进行研究，数据处理，统计分析，报告结果)，每个步骤都涉及多个参数和决策。在研究过程中，这种所谓的“分叉路径分析花园”在研究过程中引起了广泛关注，因为已经证明研究结果在很大程度上取决于设计、处理和分析管道。分析异质性会对测量精度产生至关重要的影响，从而影响统计功效和样本量要求。在本综述中，重点关注如何优化人类神经科学中常被忽视的测量精度问题，并讨论了对功效分析的影响。对这些因素的了解将极大地有利于对个体差异、组水平效应和疾病生物标志物感兴趣的神经科学家，因为不同的研究问题受益于不同的优化策略。其中许多因素通过实验室传承，但在已发表的文献中并没有得到充分的记录或经验评估。例如，每种条件下的试次数、传感器噪声容差、扫描仪脉冲序列和电极位置等因素通常基于某个实验室的先前工作，而不是建立在可靠的定量原则上。因此，迫切需要综合有关测量精度决定因素的实证证据，并通过使用标准化的报告格式(例如，BIDS，https://bids.neuroimaging.io/specification.html)共享原始数据。

本文将测量精度定义为用恒定的真实分数重复测量变量并获得类似结果的能力。因此，如果测量不受噪声、测量误差或不可控的协变量影响，精度将是最高的。至关重要的是，精度与其他概念(如有效性、准确性或可靠性等)相关，但不同于其他概念(有关精度与其他概念的关系，请参阅图1和图2)。在参与者或组水平上的精度越高，检测参与者之间或参与者组之间效应的统计功效就越高。因此，更精确的测量增加了检测到真实效应的概率。此外，这样可以更准确地估计效应大小。基于适当功效计算的研究项目有助于产生更明确的结果，从而更有效地使用研究资金。

图1.有效性、精度和准确性的比较。

图2.可靠性与精度的关系。

虽然高测量精度是统计功效的关键决定因素，但它往往被忽视。相反，增加样本量已经演变为增强心理学(Open Science Collaboration，2015)和神经科学统计功效的主要方法。一般来说，组间差异研究的统计功效由以下参数确定：(a)所选的统计显著性阈值α；(b)相对于总方差的未标准化效应量；以及(c)总样本量N。在给定预期效应量(例如，方差分析模型的f值)和显著性水平的情况下，可以将该模型转换为进行简单统计分析(例如，方差分析的主效应)所需统计功效的总样本量。许多研究人员此前曾呼吁增加人类神经科学的样本量，以获得足够的统计功效。然而，考虑到准备时间、耗材、设备运营成本、人员培训和参与者的报酬，获取神经科学数据的成本相对较高。如果不能轻易增加参与者的数量，这种外部资源限制往往会使先验功效分析的结果变得毫无意义。

增加总样本量只是提高统计功效的一种可能方法。一个有前景的替代方法是在感兴趣的聚合水平上提高精度。这可以在组水平上通过充分选择样本和/或范式，在个体水平上通过增加试次数量，甚至在试次水平上通过使用更精确的测量技术来实现。相反，缺乏测量精度会导致误差方差量增加，从而增加总方差的估计值。重要的是，确定通过增加试次数带来的精度增益并非易事。虽然扩大被试数量可以提供一些优点，但额外的试次也可能会增加序列效应(例如，习惯化、疲劳或学习等效应)的影响。尽管可以通过建模等方法来减小这种序列效应，但是增加试次数量不会无限期地提高测量精度和可靠性。接下来，本文将在不同的生物心理学和神经科学方法的背景下对这些因素进行总结。

特定于测量的注意事项

磁共振成像(MRI)

功能磁共振成像(fMRI)是一种间接测量大脑活动的方法，可捕获氧合血流量的变化情况。结构MRI生成脑组织图像，允许解剖学研究，以及估计细胞群的分布或脑区之间的连接。

设计和数据记录

MRI扫描仪最重要的特性是其场强。典型的场强值为1.5、3或7T，较高的值可以提高空间分辨率(因为信噪比增加了)，但同时也增加了参与者副作用和伪影的可能性。扫描协议的参数会影响所测量的内容。例如，可以调整视野以在特定脑区达到最佳精度。此外，减少运动(例如，提高时间分辨率，从而通过多波段序列潜在地减少采集时间，用缓冲垫固定头部，在模拟扫描仪中进行训练，实时反馈)和建模生理噪声(例如心跳和呼吸)的策略可以减少BOLD信号分析中的误差方差，从而提高精度。最后，在任务态fMRI研究中，每个受试者的试次数越多，或者在静息态研究中的扫描时间越长，可以提高信号的精度。然而，较长的扫描持续时间可能会导致受试者疲劳或动机降低，这可以通过将数据采集分成几个较短的扫描blocks来抵消。

fMRI：研究大脑激活

fMRI通过评估局部血流的电磁特性来间接测量神经活动。个体水平和组水平上的几个因素会影响测量的精度，包括设计效率和降低误差方差的因素。设计效率反映了对比试次是否会引起信号变化的巨大变异性，从而提高了信噪比。为了增加设计效率，可以使用“抖动”刺激间隔(即为每个刺激间隔添加随机持续时间)，包括零事件(即与实验中其他试次具有相同时序和持续时间，但没有向参与者提供任何不同于试次间隔的感官输入)，或优化试次顺序。在block设计中，一种实验条件按连续呈现几次，通常比事件相关设计(条件block以随机顺序呈现)的设计效率更高。然而，block设计可能会引入序列效应(如期望和上下文效应)，这可能会增加误差方差，降低测量的精度。此外，fMRI的多波段采集可以大大提高时间分辨率，但也因此增加了每位受试者每个试次的数据量。然而，多波段fMRI可能会降低信噪比，并不利于检测与奖赏相关的纹状体和内侧前额叶皮层的激活。反之，多回波成像结合适当的去噪技术可以提高fMRI的精度，甚至可以抵消多波段成像对精度的不利影响。最后，实验信号的时间频率应与血氧反应函数的最佳滤波特性(~0.4Hz)相匹配，并且不与低频成分混叠，因为低频成分通常被视为噪声并在后续分析中被滤除。

连接性和大脑网络

大脑连接可以在功能或结构水平上进行评估。对于结构连接，测量精度取决于采集的大量扩散加权图像。然而，已有研究提出了一些方法，即使在数据量很小的情况下也能达到很好的精度。在静息态功能连接方面，比较不同长度的fMRI数据和扫描时间不足时的精度损失存在争议。根据定义，静息态扫描是无约束的状态，因此其他因素也会影响测量的精度，例如，参与者是睁眼还是闭眼。

数据分析

预处理

目前有各种软件工具可用于分析MRI数据，例如FSL、SPM、FreeSurfer和AFNI/SUMA。所有分析都需要进行数据预处理，为此在结构和功能分析方面提出了不同的分析管道。例如，这些管道在将单个大脑归一化为标准空间或运动校正的质量上有所不同。提高精度的一个重要步骤是对预处理后的数据进行全面的质量评估(QA)。对于结构数据，手动ENIGMA QA协议(ENIGMA，2017)或自动化质量指标已被证明可以提高数据质量。

一般方法

对于MRI数据的分析，一般线性模型(GLM)通常用于单变量分析方法(见图3C)。在这里，精度主要取决于数据质量和样本组成。此外，可以通过添加协变量来降低误差方差(例如，功能分析中的被试运动；以及结构分析中的年龄、性别、利手和颅内总体积)。此外，可以对来自心跳或呼吸的生理噪声进行建模，从而降低相应的噪声。请注意，与多变量分析相比，单变量分析方法的重测信度较低。因此，一些研究人员通常推荐使用多变量分析而不是单变量分析。此外，应评估与中枢神经活动或大脑血流相互作用的所有物质的摄入量。这些可能会对fMRI产生影响，但目前还没有通用的处理指南。虽然排除经常摄入尼古丁、酒精或咖啡因的参与者会大大降低研究的普适性，但不考虑这些精神活性物质的不同暴露会增加误差方差，从而降低测量精度。因此，可以评估经常摄入的水平和自上次摄入以来的时间，并将其作为协变量来控制由于该物质影响而引起的BOLD反应的系统变化。

图3.主要、次要和误差方差。

fMRI：研究大脑激活

fMRI数据通常采用两级分析方法。一阶模型分析个体水平的BOLD时间序列，并估计在二阶或组水平中进一步研究的概括统计量(例如个体对比加权GLM系数，见图3)。在组水平上，估计的效应取决于个体水平估计的精度，这也得益于前面提到的协变量和随机效应的使用。此外，可以对序列自相关和典型血流动力学响应函数的偏差进行建模，并应用频率滤波器来保留实验诱发的BOLD信号，但需要在一级分析中减少误差相关信号。

与体素单变量分析相比，多变量分析方法结合了跨体素的信息，例如，区分不同的组别或预测行为。其中一些方法可以解释预测变量空间(主成分回归)或预测变量和结果空间中的大部分方差(偏最小二乘)。正则化回归方法，如弹性网、LASSO(最小绝对收缩和选择算子)分析、岭回归，可以通过合并少量或大量体素的信息来达到相同的目的。

连接性和大脑网络

分割步骤将神经数据的每个体素分配到不同的大脑区域，然后将这些区域用作网络中的节点，并估计节点之间的连接(边)。之前有研究开发并使用了各种不同标准(如解剖标记、细胞结构边界、纤维束或功能共激活)的分割方案来定义这些网络节点。在功能脑网络的构建中，通常采用基于共激活的功能分区方法或跨模态边界一致的多模态模板来分配体素。在某些情况下，最初的分割模式仅包括皮质区域，后来扩展到皮质下脑区。最佳分割方式的选择取决于具体的研究问题，理想情况下，应该通过不同的分割方式来重现结果。此外，目前的证据表明，时间分辨功能连接的分析可能受益于基于动态功能连接模式开发的模板。

因此，精确分割是确保有意义的连接模式的基础，使用标准图谱进行分割有助于元分析工作并提高不同研究之间的可比性。然而，先前的研究也表明，大脑的功能分区因人而异，也因时间而异。如果个体模板是基于足够长扫描时间的fMRI数据集计算的，则使用在特定时间点为每个被试单独创建的个体分区模板可以提高行为表现的预测。特定于任务相关连接的另一个重要方面是去除任务诱发的大脑激活，这可以通过基组任务回归来实现。如果以图的形式分析脑功能网络，则全局指标比节点特异性指标具有更高的精度。通过对相关指标本身进行时间解析，可以实现最高的时间精度。这种分析甚至允许对每个采样点进行网络构建。脑功能网络被进一步用作基于机器学习模型的输入，通过“学习”最相关的连接特征来提高测量精度。

关于结构连接分析的测量精度，建议使用基于解剖学相似性的分割图谱，例如Desikan-Killiany图谱或Destrieux图谱。当同时估计结构和功能连接时，像HCP这样的多模态分割图谱更可取。结构连接可以基于概率或确定性纤维束成像进行建模，两种方法各有优势，而多纤维确定性纤维束成像(或适当阈值的概率纤维束成像)是最佳的解决方案。然而，即使使用黄金标准的分析技术，如果纤维在一个体素内交叉，或者多个纤维在一个体素内汇合并在再次分离前并行运行时，仍然会导致连接估计的精度降低。为此，有研究提出了几种数据采集或分析方法来解决这些问题。其他问题涉及对称(推荐)与非对称连接矩阵的使用，或节点大小的校正。

报告标准

对于fMRI研究，先前的工作已经建立了报告标准(eCOBIDAS，https://osf.io/anvqy/)以及标准化的数据结构(BIDS)。此外，最近发布的预注册模板提供了详尽的fMRI研究相关信息，不仅可以在预注册期间考虑这些信息，还可以在报告已完成的研究时考虑这些信息。

脑磁图和脑电图(M/EEG)

神经群内的突触后电流会产生一个电磁信号，可在头皮表面通过脑磁图和脑电图(M/EEG)测量。信号质量在很大程度上取决于传感器技术。基于凝胶的脑电图系统提供了良好的信号质量，但应用时间较长。较新的干电极系统噪声较大，但几乎可以立即设置。使用传感器网络和盐水溶液的系统是一种折中方案。信号保真度可以通过使用在传感器放大信号的有源电极系统或内置电子屏蔽的系统来提高。传感器技术的选择要权衡其他限制条件，例如，在测试婴儿时，可能需要具有快速设置时间的系统。在传统的低温MEG系统中，传感器固定在头盔中，这意味着与参与者头部的距离可能会有很大差异，因而可能会影响信号强度。新的传感器技术基于光泵磁强计，可避免此问题。

设计和数据记录

试次数量和样本量对于M/EEG实验设计非常重要。目前，M/EEG实验每组的平均样本量低至21人，而像EEGManyLabs这样的大规模重复尝试旨在测试更大规模的样本。由训练有素的操作人员进行准备，可确保相似的准备时间、一致的杜瓦瓶位置(MEG)以及参与者之间具有可比且合理的阻抗(EEG)。由于各种因素(例如颅骨厚度、头发、护发产品和年龄)的不同，整个头皮的阻抗可能不同。阻抗也会因体温变化以及凝胶或盐水导体的干燥而发生变化。在整个实验过程中测量阻抗可以监测数据质量，并在实验期间改善信号质量不足的通道。然而，在实验过程中刷新凝胶/液体可能会改变信号，可能会引入额外的方差并影响某些分析。此外，头部位置跟踪系统可以在头部约束方法不可行的情况下进行运动校正，并且仰卧位测量可用于未来的源重建(因为MRI是仰卧位测量)。应该注意的是，参与者的体位会影响M/EEG记录信号的大小，例如，当受试者处于仰卧位时，由于大脑和颅骨之间的脑脊液量减少，枕叶皮层发出的信号会显著增加。共配准眼动追踪可以改善脑电数据中眼电伪迹的检测和排除。

数据分析

预处理

预处理步骤，如滤波，通过去除高频噪音来提高脑电数据的精度，但也可能对后续分析产生不可预测的影响，影响数据的时间分辨率并引入伪迹。本文建议使用经过验证和标准化的(半)自动预处理流程，以适应数据的特性和具体的研究问题。如果研究人员决定手动筛选伪迹，本文建议记录手动评分程序，并评估评分者之间的一致性。

已经有研究表明，在经过严格的高通滤波数据上，基于独立成分分析(ICA)的伪迹去除效果优于未经滤波或滤波强度较低数据上的ICA伪迹去除。因此，本文建议为独立成分估计创建一个适当的滤波数据集，并将估计的成分权重转移到未经滤波或滤波强度较低的数据中进行进一步处理。此外，建议使用经过验证的(半)自动分类算法来分类伪迹成分。如果有外部模态的数据可用(例如心率、眼动或身体运动、视频录像等)，可以帮助识别与这些变量高度相关的伪迹成分(例如心电伪迹)。

一般方法

大多数情况下，M/EEG分析依靠对试次进行平均来提高受试者水平的精度，例如，因为事件相关电位(如P300)与正在进行的脑电活动相比较小(见图3B)。然后，利用这些均值来提取不同电极上的因变量，并进行某种形式的单变量分析。比较不同电极和结果计算以检验相同假设的灵活性，会导致多重隐式比较的问题。对所有这些比较执行严格的Bonferroni校正将得到非常保守的结果。这可以通过正确识别族系错误率(FWE)，排除不必要的比较和执行适当的多重比较校正来解决。或者，也可以采用单变量分析方法，明确将误报率控制在期望水平上，这种方法已经得到充分验证，但可能会使推理结果不够精确。此外，目前已开发了一些方法，使用类似于MRI数据的一般线性模型(GLM)来进行M/EEG数据的分层建模，允许明确地建模受试者内方差。最近，有研究证明了使用M/EEG研究大脑功能的多变量方法的优势。

源空间与电极/传感器空间分析

源空间分析通常比传感器空间分析具有更高的信噪比，这通常是因为源定位过程大多忽略了非脑区域的噪声。EEG源定位方法的准确性主要依赖于EEG电极密度/覆盖范围和所采用头模型的有效性，建议使用受试者自己的MRI扫描而不是模板。值得注意的是，对于在EEG数据上执行的连接性分析，即使是在源定位的数据上进行，也必须考虑容积传导效应。

时域分析

事件相关电位(ERPs)是EEG研究中最常用的方法，指的是与刺激相关的EEG活动的平均波形(图3B)。一般来说，振幅测量比潜伏期测量具有更高的精度。值得注意的是，ERP成分的测量误差在不同感兴趣成分、实验试次数量甚至振幅/潜伏期估计方法方面存在较大异质性。由于ERP测量的精度估计存在很大差异，建议常规报告个体水平和组水平的精度估计，从而增强研究的可靠性和可重复性。

频谱分析

频谱分析的精度取决于从时域到频域的数据转换方法及其适用于研究问题的程度，但还需要更系统地评估特定方法对精度和数据质量的影响。EEG功率谱通常显示功率密度随频率的增加而迅速下降，称为“1/f噪声样活动”。传统的EEG功率谱分析可能会将这种活动与窄带振荡测量相结合。最近的发展提供了分离非周期性(1/f样)和周期性(振荡)活动成分的可能性。此外，可以报告典型频段分析以确保与先前的文献具有可比性。

报告标准

有关EEG和MEG特定方法细节的一般指南已在其他研究中报告，但该领域应更加一致地遵循这些准则。最近的一个建议是计算单个参与者所有试次的标准误差，即受试者水平的精度。该统计量有助于识别低质量的数据点(参与者或传感器)。此外，常规报告该统计量可以帮助研究人员确定记录和分析程序，以提供尽可能高的数据质量。

皮肤电活动(EDA)

皮肤电活动反映了由交感神经系统控制的内分泌汗腺活动，可以通过附着在皮肤上的电极进行非侵入性记录。该信号由基础活动(即皮肤电导水平的缓慢变化；SCL)和相位活动(即个体的皮肤电反应；SCRs)组成。SCL与体温调节和一般唤醒状态相关，而SCRs反映了刺激引起的激活，其特征包括振幅、潜伏期、上升时间或半恢复时间等不同组成部分。尽管存在与皮肤电密切相关的测量指标，如皮肤电位、电阻或阻抗，但本文重点关注皮肤电，其单位为微西门子(μS)。

硬件、设计和数据记录

皮肤应使用温水(无肥皂、酒精或磨损)进行清洁准备，并且参与者之间的确切电极位置应保持恒定(最好使用解剖标志点)，以减少误差方差。对于响应较慢的SCRs，20Hz的采样率被认为足够了，但更高的采样率可以提高测量精度。SCRs在刺激诱发后大约1s钟开始(高强度刺激为0.5s)，这对不同实验事件之间的时间间隔有影响。对于时间上接近的事件(即＜4s)的响应本质上很难分离，因为产生的重叠SCR可能会对测量精度产生影响。但是请注意，目前针对这些情况已经开发了基于去卷积的方法。重要的是，由于新颖、令人惊讶或令人兴奋的刺激会引发SCRs，所以不感兴趣的事件也有可能导致重叠的SCRs。

还应记录和控制一些已知对SCRs产生影响的因素，包括年龄、性别、种族等人口统计学变量，以及电极位置处的药物使用情况或疤痕。此外，一天中的时间以及环境因素(如室温和湿度等)也会调节皮肤电活动，因此应保持恒定(例如，温度保持在20~26℃之间，湿度为50%)。

SCRs受到强烈的习惯化效应的影响(图4)。因此，增加试次数量以提高个体水平的精度和可靠性对于SCRs来说并非易事。事实上，更大的试次数量通常不会提高SCRs的可靠性估计。对于这个结果的一种解释是，通过聚合更多试次来提高的精度可能会被序列效应抵消。类似地，对于受试者内的操纵也必须考虑到习惯化效应，并且需要仔细权衡受试者之间的操作，因为这可能会导致组间SCL差异或皮肤电反应的个体间差异。值得注意的是，SCL较高的个体显示出更多和更大振幅的SCRs。因此，SCRs的自适应阈值法可能是提高统计功效的一种手段。

图4.皮肤电活动的习惯化。

数据分析

处理连续记录的皮肤电导数据以分析刺激引发的SCRs需要一系列步骤，所有这些步骤都与测量精度具有(潜在的)相关性，包括响应量化、选择最小响应阈值(常见共识标准为0.01µS)、滤波以及用于被试间比较的标准化(例如，范围校正)。这些步骤中很少有关于测量精度的系统研究。最近的多元宇宙类型的研究表明，尽管基础数据相同，但不同处理和操作步骤得出的效应大小和精度存在显著差异。此外，由于SCRs无反应而排除的参与者数据是基于异质性的定义，可能对测量可靠性和精度产生影响。

报告标准

报告标准包括受试者准备(例如，洗手、皮肤预处理)，数据记录(例如，硬件/软件、滤波器、采样率、电极放置、电极和凝胶类型、温度和湿度)，数据处理(例如，滤波器、响应量化细节包括使用的软件和确切设置、时间窗、转换，截止、无反应标准)，以及选择的理由。

眼动追踪

眼动追踪是基于瞳孔位置的注视方向测量。这里将重点讨论以红外光为当前主导技术的瞳孔和角膜反射方法，但大部分结论也适用于其他应用。眼动追踪在神经科学方法中占据了特殊地位，因为准确性(图1)可以通过记录的注视位置与实际目标坐标之间的差异来轻松量化。因此，校准和验证程序对于测量系统误差非常重要(图5)。在眼动追踪文献中，“精度”具体指的是注视期间时间序列信号的试次级精度。数据质量的另一个重要指标是追踪丢失的百分比，该指标表示眼动追踪在时域上的稳健性。

图5.注视信号的精度和准确性之间的联系。

设计和数据记录

设置特定因素

在装配眼动追踪环境时，需要考虑几个因素以保持足够的精度。例如，眼动仪必须具有至少200Hz的高采样率，以防止采样误差增加。此外，应合理地选择设置中的距离。首先，操作距离(参与者与眼动仪之间的距离)直接影响瞳孔检测，从而影响精度和准确性。其次，较大的视距(参与者与被观察物体之间的距离)会缩小视网膜上的刺激图像(即视角)，从而降低测量的精度并增加感兴趣区域(ROI，也称为“感兴趣区域”，AOI)分析中错误分类的风险。由于垂直精度通常比水平精度差，因此还应考虑刺激的高宽比。

过程特定因素

在数据收集之前，应考虑几个因素。由于准确性在接近校准刺激时最佳，因此其数量和位置应与实验刺激所包围的区域相对应。此外，参与者的运动也会影响数据质量。虽然高度依赖眼动追踪模型，但头部运动也会影响准确性和精度，无论是通过远程眼动追踪中的追踪丢失还是移动眼动追踪中的滑动。此外，校准后视距的变化可能会导致视差误差，从而影响注视信号的准确性。

参与者特定因素

参与者的面部生理特征会影响眼动追踪数据的质量。例如，向下的睫毛和较小的瞳孔会降低准确性；眯眼也会降低准确性和精度，而睫毛膏的影响则存在争议。对于红外眼动仪，蓝色眼睛参与者的数据精度低于棕色眼睛的参与者。视力矫正辅助工具会影响眼动追踪数据的质量：隐形眼镜会降低准确性，而眼镜会降低精度。

数据分析

数据采集后，不同的分析程序会对精度和准确性产生影响。例如，有两类事件检测算法可以将相对稳定的注视周期(即注视点)与注视位置的突然变化(即扫视)分开：基于速度的算法具有更高的精度和准确性，但需要更高的采样率(＞100Hz)。对于较低的采样率，建议使用基于色散的方法。当依赖制造商的软件包时，通常无法访问执行的算法及其阈值。因此，很少对不同程序进行系统性比较。

在事件检测后，可以执行其他预处理步骤，以确保整个记录的高精度。这包括在线或离线的漂移校正程序，允许在头部位置或眼睛大小发生变化时(例如由于参与者疲劳)调整校准图。此外，在此步骤中，可以根据有效眼动追踪数据的比例排除试次或参与者。

最后，可以从分段的注视位置数据中提取不同的指标，这些数据通常依赖于将注视转移或位置与感兴趣区域(ROI)相关联。文献中使用了大量的指标，但通常会根据运动(例如，扫视的方向或幅度)、时空分布(例如，ROI上的总停留时间)、数量(例如，ROI上的初始或重复注视次数)和潜伏期(例如，对ROI首次注视的潜伏期)来描述注视数据。一般来说，与孤立特征(例如，首次注视的潜伏期)相比，高度聚合的指标(例如，长时间探索期间的停留时间)可能会提高精度。有些指标来自于事件检测之前的原始数据(例如，微扫视或移动刺激的平滑追踪)，但不常使用。

报告标准

目前存在各种不同的报告标准。Holmqvist等人(2023)提供了报告指南和一份列出了影响眼动追踪数据质量因素的详尽表格。

内分泌学

激素是在内分泌腺中产生的化学信使。它们通过与特定受体结合来发挥作用，从而影响各种心理过程，反过来也可能会影响激素浓度。激素是通过体液和组织测量的，包括血液、唾液、头发、指甲、脑脊液等。然而，这些测量领域中的指标可能反映了不同的结果：一些指标表示当前生物活性激素的可用性，称为急性状态(例如，唾液皮质醇)，而其他指标表示随时间累积的测量结果，称为慢性状态(例如，头发皮质醇)。关键是，不同领域的样本通常需要不同的采样设备、处理和储存条件。因此，遵循关于激素和测量特定因素的建议对于保持激素稳定性和提高测量精度至关重要。

激素浓度是通过生化分析来确定的，该分析依赖于微量滴定板、特定试剂和仪器。除了测量特定的敏感性和特异性外，任何给定分析的测定间和测定内差异都与测量精度直接相关。测定内变异性是指在同一微量滴定板上相同样本(重复测量)之间激素浓度的变异性，而测定间变异性是指在不同微量滴定板上相同样本之间的变异性。许多因素可以导致高变异性，例如预处理步骤的变化。因此，一个研究的样本应该在同一个实验室中进行分析，采用相同的实验方案和来自同一制造商和批次的生化试剂，从而最大限度地减少与分析成分(所谓的“批次效应”)相关的变异性。

设计

精确测量激素对心理过程的影响以及心理过程对激素的影响，需要精确的采样时间。通常，激素样本的采集需要根据感兴趣的干预或事件进行安排，并考虑滞后和动态激素响应。一些激素在心理生理过程上显示出早期或急性影响，与之后或延迟的影响完全不同。

当激素动力学被视为是混淆因素时，收集多个时间点的激素样本可以提高测量精度(图6B)。然而，某些激素浓度在一定时间内并不一定会发生变化，从而限制了在这些情况下其他激素样本的效用。

图6.生物节律及其控制方法。

除了滞后反应外，生物节律还会导致激素浓度的大幅变化，这可能会影响测量精度(图6A)。虽然一些生物节律可以在几分钟或几小时内解释循环激素的变化(例如，昼夜节律，图6A)，但激素浓度也会在数月、季节或数年内发生变化(例如，青春期或更年期)。除了可能破坏生物节律的外部因素之外，激素调节也存在着内源性变化，例如与发育阶段(如青春期和更年期)相关的年龄依赖性变化。这种变异性可能会混淆激素浓度中潜在个体差异的测量方法。这可以通过限制目标人群或通过明确比较和统计个体发育阶段来控制。最后，还需要注意季节性波动等混淆因素，因为这些因素会影响纵向研究设计中的测量精度。

生物节律也存在于包括神经影像数据和受体活性在内的各种模态中，激素往往是一个驱动力。在统计分析中包含激素浓度可以部分控制这种变异性。除了与生物节律相关的混淆因素外，许多生活方式和环境因素也会影响激素浓度的变异性，并可能限制测量的精度。虽然目前无法列出一份完整的潜在混淆因素清单，但最重要的因素是那些可能对激素调节产生影响的因素，如身心健康状况、药物、毒品、尼古丁和酒精使用等。

数据分析

激素数据很少满足参数统计方法的假设，例如方差齐性和正态分布。与其诉诸功能较弱的非参数过程，不如使用数据转换来抵消假设违反的情况。然而，必须谨慎使用这些数据转换方法。此外，激素数据通常以时间序列的形式存在；直接分析重复测量数据而不是比较聚合得分通常会带来更高的分析灵敏度。时间序列数据还允许对延迟效应进行统计建模，这也可以提高分析灵敏度。这些效应通常以交互作用而不是主效应的形式呈现。这些效应必须根据潜在的混淆因素进行调整，要么将它们作为模型中的因子，要么作为协变量。从被试间设计转变为被试内设计也可以提高模型的分析灵敏度，这通常需要较大样本量才能充分检测感兴趣的效应。

报告标准

尽管最近呼吁提高激素研究的严谨性和精确性，但目前缺乏描述激素研究结果应该如何呈现的准则。然而，强烈建议仔细记录研究设计、参与者样本(所有纳入和排除标准)、激素样本和设备类型、采样时间、预处理步骤的存储过程，以及分析中获得的相应测定间和测定内变异的测定类型。

结论

一般来说，提高精度的方法是研究人员工具箱中一个有价值的补充。然而，要利用这些方法，研究人员需要对影响精度的因素有充分的了解。在本文中，研究者提供了该主题的最新概述，并引导读者寻找有价值的资源。然而，目前仍然存在许多悬而未决的问题。为了更好地将不同测量方法关联起来，关键是能够基于实证证据评估它们各自的精度，而不是将神经科学研究建立在关于足够精度的隐含且模糊的假设之上。因此，研究人员应报告实证估计的精度。除了标准化效应量之外，报告不同的方差成分也很重要。此外，校准实验有助于优化测量策略和量化测量不确定性，这是一种很有前景的方法。这种标准化校准实验或特定领域的数据集也可以用于建立一个大型数据库，并通过大规模的巨型分析或元分析(mega或meta-analyses)，以及多元宇宙方法来系统地评估不同因素对测量精度的贡献。虽然这种方法可能看起来很乏味，但是它能够使人类神经科学研究变得更加稳健和资源高效。

参考文献：Stephan Nebe, Mario Reutter, Daniel H Baker. et al. (2023) Enhancing precision in human neuroscience eLife 12:e85980.

DOI: https://doi.org/10.7554/eLife.85980

茗创科技专注于脑科学数据处理，欢迎关注公众号，有任何相关的疑问和咨询，可添加我们的工程师（MCKJ-zhouyi或17373158786）进行咨询~

快来扫码关注吧.jpg

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

eLife：提高人类神经科学的精度（涵盖磁共振、脑磁图、脑电图、皮肤电活动、眼动追踪、内分泌学等多方面的测量建议）

推荐阅读更多精彩内容