يستطيع نموذج اللغة الكبير (LLM) كتابة مقالات مقنعة تعتمد على كلمات سريعة، واجتياز امتحانات الكفاءة المهنية، وكتابة معلومات سهلة الفهم ومتعاطفة. ومع ذلك، فبالإضافة إلى المخاطر المعروفة للخيال والهشاشة والحقائق غير الدقيقة في نموذج اللغة الكبير، تُصبح قضايا أخرى عالقة محور الاهتمام تدريجيًا، مثل نماذج الذكاء الاصطناعي التي قد تنطوي على "قيم إنسانية" تمييزية في إنشائها واستخدامها. وحتى إذا توقف نموذج اللغة الكبير عن اختلاق المحتوى واستبعاد نتائج ضارة بشكل واضح، فقد تنحرف "قيم LLM" عن القيم الإنسانية.
توضح أمثلة لا حصر لها كيف تُشفِّر البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي القيم الفردية والاجتماعية، والتي قد تترسَّخ داخل النموذج. تشمل هذه الأمثلة مجموعةً من التطبيقات، بما في ذلك التفسير الآلي لصور الأشعة السينية للصدر، وتصنيف أمراض الجلد، واتخاذ القرارات الخوارزمية بشأن تخصيص الموارد الطبية. وكما ذُكر في مقالٍ نُشر مؤخرًا في مجلتنا، قد تُضخِّم بيانات التدريب المتحيزة وتكشف القيم والتحيزات الموجودة في المجتمع. على النقيض من ذلك، أظهرت الأبحاث أيضًا إمكانية استخدام الذكاء الاصطناعي للحد من التحيز. على سبيل المثال، طبَّق الباحثون نماذج التعلم العميق على أفلام الأشعة السينية للركبة، واكتشفوا عوامل أغفلتها مؤشرات الشدة القياسية (التي يُقيِّمها أخصائيو الأشعة) في مفصل الركبة، مما قلَّل من اختلافات الألم غير المبرَّرة بين المرضى السود والبيض.
على الرغم من تزايد إدراك الناس للتحيز في نماذج الذكاء الاصطناعي، وخاصةً فيما يتعلق ببيانات التدريب، إلا أن العديد من مداخل القيم الإنسانية الأخرى لا تحظى باهتمام كافٍ في عملية تطوير نماذج الذكاء الاصطناعي وتطبيقها. حقق الذكاء الاصطناعي الطبي مؤخرًا نتائج مبهرة، ولكنه لم يُراعِ القيم الإنسانية وتفاعلها مع تقييم المخاطر والاستدلال الاحتمالي بشكل صريح، ولم يُنمذج بعد.
لتجسيد هذه المفاهيم المجردة، تخيّل أنك طبيب غدد صماء، ومُطالب بوصف هرمون النمو البشري المُعاد تركيبه لطفل يبلغ من العمر ثماني سنوات، وهو دون الشريحة المئوية الثالثة من عمره. مستوى هرمون النمو البشري المُحفّز لدى الطفل أقل من 2 نانوغرام/مل (القيمة المرجعية >10 نانوغرام/مل، والقيمة المرجعية للعديد من الدول خارج الولايات المتحدة >7 نانوغرام/مل)، وقد اكتشف الجين المُرمّز لهرمون النمو البشري طفراتٍ نادرة تُعطّل النشاط. نعتقد أن استخدام علاج هرمون النمو البشري أمرٌ بديهي لا جدال فيه في هذا السياق السريري.
قد يُثير تطبيق علاج هرمون النمو البشري في الحالات التالية جدلاً: طول فتى يبلغ من العمر 14 عاماً كان دائماً ضمن الشريحة المئوية العاشرة من أقرانه، وذروة هرمون النمو البشري بعد التحفيز 8 نانوغرام/مل. لا توجد طفرات وظيفية معروفة يمكن أن تؤثر على الطول، ولا أسباب أخرى معروفة لقصر القامة، ويبلغ عمره العظمي 15 عاماً (أي لا يوجد تأخير في النمو). يعود جزء من الجدل فقط إلى اختلافات في قيم العتبة التي حددها الخبراء بناءً على عشرات الدراسات المتعلقة بمستويات هرمون النمو البشري المستخدمة لتشخيص نقص هرمون النمو المعزول. وينبع قدر مماثل من الجدل على الأقل من موازنة المخاطر والفوائد لاستخدام علاج هرمون النمو البشري من وجهات نظر المرضى وأولياء أمورهم ومقدمي الرعاية الصحية وشركات الأدوية والجهات الدافعة. قد يُقيّم أطباء الغدد الصماء لدى الأطفال الآثار الجانبية النادرة لحقن هرمون النمو اليومية لمدة عامين مع احتمال عدم حدوث نمو أو نمو طفيف فقط في حجم الجسم البالغ مقارنةً بالوضع الحالي. قد يعتقد الأولاد أنه حتى لو زاد طولهم بمقدار 2 سم فقط، فإن الأمر يستحق حقن هرمون النمو، ولكن الدافع وشركة الأدوية قد يكون لديهما وجهات نظر مختلفة.
نأخذ مُعدّل الترشيح الكبيبي المُقدّر (eGFR) المُعتمد على الكرياتينين كمثال، وهو مؤشر شائع الاستخدام لوظائف الكلى لتشخيص وتحديد مرحلة مرض الكلى المزمن، وتحديد شروط زراعة الكلى أو التبرع بها، وتحديد معايير التخفيض وموانع استخدام العديد من الأدوية الموصوفة. يُعدّ مُعدّل الترشيح الكبيبي (EGFR) معادلة انحدار بسيطة تُستخدم لتقدير مُعدّل الترشيح الكبيبي (mGFR) المُقاس، وهو معيار مرجعي، إلا أن طريقة التقييم مُعقدة نسبيًا. لا يُمكن اعتبار هذه المعادلة الانحدارية نموذجًا للذكاء الاصطناعي، ولكنها تُوضّح العديد من مبادئ القيم الإنسانية والمنطق الاحتمالي.
أول نقطة دخول للقيم الإنسانية في معدل الترشيح الكبيبي المقدر (eGFR) هي عند اختيار البيانات اللازمة لتركيب المعادلات. يتكون الطابور الأصلي المستخدم لتصميم صيغة معدل الترشيح الكبيبي المقدر (eGFR) في الغالب من مشاركين من أصول أفريقية وبيضاء، ولا تتضح إمكانية تطبيقه على العديد من المجموعات العرقية الأخرى. تشمل نقاط الدخول اللاحقة للقيم الإنسانية في هذه الصيغة: اختيار دقة معدل الترشيح الكبيبي المقدر (mGFR) كهدف أساسي لتقييم وظائف الكلى، وتحديد مستوى الدقة المقبول، وكيفية قياس الدقة، واستخدام معدل الترشيح الكبيبي المقدر (eGFR) كعتبة لبدء اتخاذ القرارات السريرية (مثل تحديد شروط زراعة الكلى أو وصف الأدوية). وأخيرًا، عند اختيار محتوى نموذج الإدخال، ستدخل القيم الإنسانية أيضًا في هذه الصيغة.
على سبيل المثال، قبل عام 2021، اقترحت الإرشادات تعديل مستويات الكرياتينين في صيغة eGFR بناءً على عمر المريض وجنسه وعرقه (المصنف فقط كأفراد من السود أو غير السود). يهدف التعديل القائم على العرق إلى تحسين دقة صيغة mGFR، ولكن في عام 2020، بدأت المستشفيات الكبرى في التشكيك في استخدام eGFR القائم على العرق، مستشهدة بأسباب مثل تأخير أهلية المريض لعملية الزرع وتجسيد العرق كمفهوم بيولوجي. أظهرت الأبحاث أن تصميم نماذج eGFR من حيث العرق يمكن أن يكون له تأثيرات عميقة ومتفاوتة على الدقة والنتائج السريرية؛ لذلك، فإن التركيز بشكل انتقائي على الدقة أو التركيز على جزء من النتائج يعكس أحكام القيمة وقد يخفي اتخاذ القرارات بشفافية. أخيرًا، اقترحت مجموعة العمل الوطنية صيغة جديدة تمت إعادة تركيبها دون مراعاة العرق لتحقيق التوازن بين قضايا الأداء والعدالة. يوضح هذا المثال أنه حتى الصيغة السريرية البسيطة لها العديد من نقاط الدخول إلى القيم الإنسانية.
بالمقارنة مع الصيغ السريرية التي تحتوي على عدد صغير فقط من المؤشرات التنبؤية، قد يتكون LLM من مليارات إلى مئات المليارات من المعلمات (أوزان النموذج) أو أكثر، مما يجعل من الصعب فهمه. والسبب في أننا نقول "صعب الفهم" هو أنه في معظم LLMs، لا يمكن رسم خريطة للطريقة الدقيقة لاستنباط الاستجابات من خلال الاستجواب. لم يتم الإعلان عن عدد معلمات GPT-4 حتى الآن؛ كان لدى سابقتها GPT-3 175 مليار معلمة. لا يعني المزيد من المعلمات بالضرورة قدرات أقوى، حيث أن النماذج الأصغر التي تتضمن المزيد من الدورات الحسابية (مثل سلسلة نماذج LLaMA [Large Language Model Meta AI]) أو النماذج التي يتم ضبطها بدقة بناءً على ردود الفعل البشرية ستؤدي بشكل أفضل من النماذج الأكبر. على سبيل المثال، وفقًا للمقيمين البشريين، يتفوق نموذج InstrumentGPT (نموذج يحتوي على 1.3 مليار معلمة) على GPT-3 في تحسين نتائج مخرجات النموذج.
لم تُكشف تفاصيل التدريب الخاصة بـ GPT-4 حتى الآن، ولكن تم الكشف عن تفاصيل نماذج الجيل السابق، بما في ذلك GPT-3 وInstrumentGPT والعديد من نماذج LLM مفتوحة المصدر الأخرى. حاليًا، تأتي العديد من نماذج الذكاء الاصطناعي مزودة ببطاقات نموذجية؛ وقد نُشرت بيانات التقييم والأمان الخاصة بـ GPT-4 في بطاقة نظام مشابهة مقدمة من شركة OpenAI المتخصصة في إنشاء النماذج. يمكن تقسيم إنشاء LLM بشكل تقريبي إلى مرحلتين: مرحلة ما قبل التدريب الأولية ومرحلة الضبط الدقيق التي تهدف إلى تحسين نتائج مخرجات النموذج. في مرحلة ما قبل التدريب، يُزود النموذج بقاعدة بيانات كبيرة تتضمن نص الإنترنت الأصلي لتدريبه على توقع الكلمة التالية. تُنتج عملية "الإكمال التلقائي" البسيطة هذه نموذجًا أساسيًا قويًا، ولكنها قد تؤدي أيضًا إلى سلوكيات ضارة. ستدخل القيم الإنسانية مرحلة ما قبل التدريب، بما في ذلك اختيار بيانات ما قبل التدريب لـ GPT-4 واتخاذ قرار بإزالة المحتوى غير اللائق، مثل المحتوى الإباحي، من بيانات ما قبل التدريب. على الرغم من هذه الجهود، قد يظل النموذج الأساسي غير مفيد أو غير قادر على احتواء نتائج مخرجات ضارة. وفي المرحلة التالية من الضبط الدقيق، سوف تظهر العديد من السلوكيات المفيدة وغير الضارة.
في مرحلة الضبط الدقيق، غالبًا ما يُغيّر سلوك نماذج اللغة جذريًا من خلال الضبط الدقيق المُشرف والتعلم التعزيزي القائم على التغذية الراجعة البشرية. في مرحلة الضبط الدقيق المُشرف، يكتب موظفو المقاول المُعيّنون أمثلة استجابة للكلمات السريعة ويُدرّبون النموذج مباشرةً. في مرحلة التعلم التعزيزي القائم على التغذية الراجعة البشرية، يُصنّف المُقيّمون البشريون نتائج مخرجات النموذج كأمثلة لمحتوى الإدخال. ثم يُطبّقون نتائج المقارنة أعلاه لتعلّم "نموذج المكافأة" وتحسين النموذج بشكل أكبر من خلال التعلم التعزيزي. يُمكن لمشاركة بشرية مُذهلة منخفضة المستوى ضبط هذه النماذج الكبيرة بدقة. على سبيل المثال، استخدم نموذج InstrumentGPT فريقًا من حوالي 40 موظفًا مُتعاقدًا جُنّدوا من مواقع التعهيد الجماعي، واجتازوا اختبار فرز يهدف إلى اختيار مجموعة من المُعلّقين الذين يُراعون تفضيلات فئات سكانية مُختلفة.
كما يُظهر هذان المثالان المتطرفان، وهما الصيغة السريرية البسيطة [eGFR] ونموذج ماجستير القانون القوي [GPT-4]، فإن اتخاذ القرارات البشرية والقيم الإنسانية يلعبان دورًا أساسيًا في تشكيل نتائج مخرجات النموذج. فهل تستطيع نماذج الذكاء الاصطناعي هذه استيعاب قيم المرضى والأطباء المتنوعة؟ وكيف يُمكن توجيه تطبيق الذكاء الاصطناعي في الطب بشكل علني؟ وكما ذُكر لاحقًا، قد تُوفر إعادة النظر في تحليل القرارات الطبية حلاً مبدئيًا لهذه المشكلات.
تحليل القرارات الطبية ليس مألوفًا لدى العديد من الأطباء، ولكنه يُميز بين الاستدلال الاحتمالي (للنتائج غير المؤكدة المتعلقة باتخاذ القرار، مثل إعطاء هرمون النمو البشري في السيناريو السريري المثير للجدل الموضح في الشكل 1) وعوامل الاعتبار (للقيم الذاتية المرتبطة بهذه النتائج، والتي تُقاس قيمتها بـ"المنفعة"، مثل قيمة زيادة طول الذكر بمقدار 2 سم)، مما يوفر حلولًا منهجية للقرارات الطبية المعقدة. في تحليل القرارات، يجب على الأطباء أولًا تحديد جميع القرارات والاحتمالات الممكنة المرتبطة بكل نتيجة، ثم دمج منفعة المريض (أو الطرف الآخر) المرتبطة بكل نتيجة لاختيار الخيار الأنسب. لذلك، تعتمد صحة تحليل القرارات على مدى شمولية إعداد النتيجة، وكذلك على دقة قياس المنفعة وتقدير الاحتمالية. من الناحية المثالية، يُساعد هذا النهج على ضمان أن تكون القرارات قائمة على الأدلة ومتوافقة مع تفضيلات المريض، مما يُضيق الفجوة بين البيانات الموضوعية والقيم الشخصية. تم تقديم هذه الطريقة في المجال الطبي منذ عدة عقود وتم تطبيقها على اتخاذ القرارات الفردية للمرضى وتقييم صحة السكان، مثل تقديم توصيات لفحص سرطان القولون والمستقيم لعامة السكان.
في تحليل القرارات الطبية، طُوّرت أساليب متنوعة لتحديد المنفعة. تستمد معظم الأساليب التقليدية قيمتها مباشرةً من المرضى الأفراد. أبسطها استخدام مقياس تقييم، حيث يُقيّم المرضى مستوى تفضيلهم لنتيجة معينة على مقياس رقمي (مثل مقياس خطي يتراوح من 1 إلى 10)، مع وضع النتائج الصحية الأكثر تطرفًا (مثل الصحة الكاملة والوفاة) في كلا الطرفين. تُعد طريقة تبادل الوقت طريقة شائعة أخرى. في هذه الطريقة، يحتاج المرضى إلى اتخاذ قرار بشأن مقدار الوقت الصحي الذي يرغبون في قضائه مقابل فترة من سوء الصحة. تُعد طريقة المقامرة القياسية طريقة شائعة أخرى لتحديد المنفعة. في هذه الطريقة، يُسأل المرضى عن الخيارين اللذين يفضلونهما: إما العيش لعدد معين من السنوات بصحة جيدة باحتمالية محددة (p) (t)، وتحمل خطر الوفاة باحتمالية 1-p؛ أو التأكد من العيش لمدة t سنوات في ظل ظروف صحية متقاطعة. يُسأل المرضى عدة مرات بقيم p مختلفة حتى لا يُظهروا أي تفضيل لأي خيار، بحيث يُمكن حساب المنفعة بناءً على إجابات المرضى.
بالإضافة إلى الأساليب المستخدمة لاستخلاص تفضيلات المرضى الفردية، طُوّرت أساليب أخرى لتحقيق فائدة أكبر لفئة المرضى. وتُساعد مناقشات المجموعات البؤرية (التي تجمع المرضى لمناقشة تجارب محددة) على فهم وجهات نظرهم. ولتحقيق فائدة أكبر للمجموعة، طُرحت أساليب متنوعة للنقاش الجماعي المنظم.
عمليًا، يستغرق إدخال المنفعة مباشرةً في عملية التشخيص والعلاج السريري وقتًا طويلًا. ولحل هذه المشكلة، تُوزّع استبيانات المسح عادةً على فئات سكانية مختارة عشوائيًا للحصول على درجات المنفعة على مستوى السكان. ومن الأمثلة على ذلك استبيان EuroQol خماسي الأبعاد، والنموذج المختصر لوزن المنفعة سداسي الأبعاد، ومؤشر المنفعة الصحية، وأداة استبيان جودة الحياة الأساسية 30 الخاصة بالمنظمة الأوروبية لأبحاث وعلاج السرطان.
وقت النشر: 1 يونيو 2024




