ChatGPT在同理心方面超越医生：一项对比研究

引言

自从ChatGPT问世以来，它在医学领域的卓越表现已经引起了广泛的关注。例如，在德国医学国家考试中，ChatGPT的平均得分高达74.6%，超越了人类学生的表现，并且在630个问题中正确回答了88.1%。在实际医疗应用中，ChatGPT对284个跨17个专科的医疗查询给出了相当准确的答复，并通过强化学习不断提升性能。在骨科运动医学领域，其对样本问题的回答准确率也达到了65%。这些初步的成功案例表明，ChatGPT在医疗领域具有巨大的潜力。

研究背景与方法

为了进一步探索ChatGPT在医疗领域的应用潜力，德国路德维希港BG诊所的研究人员进行了一项对比研究。他们选取了来自创伤外科、普通外科、耳鼻喉科、儿科和内科这五大医学专业的100个健康相关问题，并比较了ChatGPT与经验丰富的专家（EP）的回答。研究结果显示，ChatGPT在同理心和实用性方面均优于专家，这为AI在医疗领域的应用提供了新的视角。

为了全面评估患者对AI助手的感知，研究人员采用了多步骤方法：

问题收集：从一个面向患者的网络平台收集了100个公开的健康相关问题，涵盖了上述五大医学专业，每个专业选取20个问题。这些问题代表了患者在日常生活中可能遇到的常见健康困扰。
回答生成：使用ChatGPT-4.0生成了针对这100个问题的回答，并与来自同一平台的专家回答进行对比。这确保了对比的公平性，因为专家回答代表了现实世界中患者可能获得的建议。
匿名化处理：所有问题和回答均经过匿名化处理，并打包成10个每组包含10个问题的数据集。这一步骤是为了消除评估者可能存在的偏见，确保评估结果的客观性。
评估：这些数据集被分发给患者和医生进行评估。患者主要关注回答的同理心和实用性，而医生除了评估同理心和实用性外，还要评估回答的正确性和潜在危害。这种多角度的评估方法使得研究结果更加全面和可靠。

为了确保评估的公正性，所有参与者在评估过程中均不知道回答是由ChatGPT还是专家提供的。此外，研究团队还收集了患者的年龄、性别等基本信息，以及医生的从业年限，以便进一步分析这些因素对评估结果的影响。

评估结果分析

患者评估

患者对ChatGPT的回答普遍给予了高度评价，这与传统的观点形成了鲜明对比，许多人可能认为AI缺乏人性化的关怀。

同理心：ChatGPT的平均评分为4.2（标准误0.15），而专家的平均评分为3.8（标准误0.18）。
实用性：ChatGPT的平均评分为4.1，而专家的平均评分为3.7。

这些结果表明，患者普遍认为ChatGPT的回答比专家的回答更具同理心和实用性。这可能与ChatGPT在回复中更注重情感表达和提供清晰可行的建议有关。

进一步的分析显示，患者的年龄和性别对评估结果没有显著影响，但患者的教育水平和社会经济地位可能对他们对ChatGPT的接受程度产生影响，由于研究未收集这方面的数据，无法进行详细的分析。这表明未来的研究应该更加关注社会因素对AI接受度的影响。

医生评估

医生对ChatGPT的回答也给予了积极评价，这进一步证实了AI在医疗领域的潜力。

同理心：ChatGPT的平均评分为4.3，专家的平均评分为3.9。
实用性：ChatGPT的平均评分为4.2（标准误0.15），专家的平均评分为3.8（标准误0.17）。
正确性：ChatGPT的平均评分为4.5（标准误0.13），专家的平均评分为4.1（标准误0.15）。
潜在危害：ChatGPT的平均潜在危害评分为1.2（标准误0.08），专家的平均潜在危害评分为1.5（标准误0.10）。

这些数据表明，ChatGPT不仅在同理心、实用性和正确性方面表现出色，而且在潜在危害方面也优于专家。这表明，AI在医疗决策支持方面具有巨大的优势，能够提供更安全、更有效的建议。

深入探讨

同理心的重要性

同理心在医患关系中至关重要，它能够帮助医生更好地理解患者的感受和需求，从而提供更个性化的治疗方案。这项研究表明，ChatGPT在提供同理心方面甚至超越了人类医生，这可能与AI不受情绪影响，能够更加客观地分析患者的问题有关。AI的同理心并非是情感上的，而是通过更精准的语言和更贴近患者需求的回复来体现的。

实用性的考量

实用性是患者评估医疗建议的重要指标。患者不仅希望得到同理心的关怀，更希望得到切实可行的建议。ChatGPT在这方面表现优异，能够提供更清晰、更具体、更易于执行的建议，这可能与ChatGPT能够快速处理大量信息，并从中提取关键信息有关。

正确性的挑战

在医疗领域，正确性是至关重要的。这项研究表明，ChatGPT在正确性方面也优于人类专家，这可能与ChatGPT能够基于大量医学文献提供更准确的建议有关。然而，这并不意味着AI可以完全取代人类医生，因为在某些复杂的情况下，人类医生的经验和判断仍然是不可替代的。

潜在危害的评估

在评估医疗建议时，潜在危害是一个重要的考量因素。这项研究表明，ChatGPT在潜在危害方面也优于人类专家，这可能与AI能够更加谨慎地评估各种风险，并提供更安全的建议有关。然而，这并不意味着AI的建议是完全没有风险的，仍然需要人类医生进行最终的判断和决策。

局限性与未来研究方向

这项研究虽然取得了重要的成果，但也存在一些局限性。首先，研究样本主要来自德国，可能不具有普遍性。其次，研究未收集患者的教育水平和社会经济地位等信息，这可能对研究结果产生影响。未来的研究应该更加关注这些因素，以便更全面地评估AI在医疗领域的应用潜力。

此外，未来的研究还可以探索如何将AI更好地融入现有的医疗体系，以及如何解决AI在医疗应用中可能出现的伦理问题。例如，如何确保AI的决策是透明的、公正的，以及如何保护患者的隐私。

结论

这项研究表明，ChatGPT在同理心、实用性和正确性方面均优于经验丰富的医生，尤其在患者评估中表现突出。这为AI在医疗领域的应用提供了新的视角，也为未来的研究指明了方向。AI在医疗领域的应用前景广阔，但仍需进一步的研究和实践，以确保其能够安全、有效地为患者服务。