لا شك بأن الذكاء الاصطناعي التوليدي مثل «تشات جي بي تي» قادر على إنشاء مقالات علمية تبدو حقيقية بشكل مقنع، لدرجة أنه بات التمييز بين الأوراق الأصلية والمزيفة صعباً بشكل متزايد. يمثل ذلك تحدياً خاصاً لأولئك خارج مجال البحث المحدد، الذين قد لا يمتلكون الخبرة اللازمة لتمييز التناقضات الدقيقة.
لمعالجة هذه المشكلة، طور أحمد عابدين حامد، الباحث في كلية «توماس جاي واتسون» للهندسة والعلوم التطبيقية بجامعة «بينغامبتون» حلاً مبتكراً. فمن خلال خوارزمية التعلم الآلي «xFakeSci» التي طورها، يمكن اكتشاف ما يصل إلى 94 في المائة من الأوراق العلمية المزيفة، مما يضاعف تقريباً معدل نجاح تقنيات استخراج البيانات التقليدية.
أصل «xFakeSci»
يركز حامد في أبحاثه الأساسية على المعلوماتية الطبية الحيوية التي تتضمن التدقيق في المنشورات الطبية والتجارب السريرية والموارد عبر الإنترنت. لقد جعله هذا العمل مدركاً تماماً لانتشار وتأثير الأبحاث الزائفة، خصوصاً تلك التي تم تسليط الضوء عليها أثناء الوباء العالمي. لمعالجة هذه المشكلة، تعاون كل من أحمد عابدين حامد، وزيندونغ وو، أستاذ في جامعة «هيفاي للتكنولوجيا» في الصين لإنشاء وتحليل مقالات مزيفة عن مرض ألزهايمر والسرطان والاكتئاب. قارن الباحثان هذه المقالات التي تم إنشاؤها بواسطة الذكاء الاصطناعي بمقالات حقيقية من قاعدة بيانات «بابميد» التابعة للمعاهد الوطنية للصحة.
المنهجية والنتائج
تضمّن تطوير «xFakeSci» عملية دقيقة من التجارب، ركز الباحثان فيها على تحليل ميزتين رئيسيتين للمقالات، وهي التواتر وترابط الثنائيات التي تعد أزواج من الكلمات تظهر معاً بشكل شائع (على سبيل المثال «تغير المناخ»، «التجارب السريرية»). من خلال استخدام الكلمات الرئيسية نفسها لإنشاء مقالات مزيفة واسترجاع مقالات حقيقية ضَمَنوا أساساً متسقاً للمقارنة.
كشف تحليلهما عن اختلافات كبيرة بين المقالات التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمقالات التي كتبها البشر. في المقالات المزيفة، كان عدد الكلمات الثنائية الفريدة أقل بكثير، ومع ذلك كانت هذه الكلمات الثنائية مرتبطة بشكل مفرط بكلمات أخرى في النص. يتناقض هذا النمط بشكل حاد مع المقالات الحقيقية، حيث كانت الكلمات الثنائية أكثر وفرة وأقل ارتباطاً بشكل موحد. سلط هذا الاكتشاف الضوء على اختلاف أساسي في أهداف الكتابة لدى البشر والذكاء الاصطناعي. فبينما يهدف الباحثون من البشر إلى الإبلاغ عن النتائج التجريبية بشكل شامل، فإن النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي يميل إلى الإفراط في استخدام الكلمات المهمة لإقناع القراء.
تؤكد الأنماط المميزة التي حددتها «xFakeSci» على الأهداف المختلفة للباحثين البشر مقابل الذكاء الاصطناعي. يلاحظ حامد أنه بينما يحاول «تشات جي بي تي» إقناع القراء بعمق في نقاط محددة، تسعى الأوراق العلمية الحقيقية إلى الاتساع والدقة. هذا الفهم أمر بالغ الأهمية في تطوير أدوات للكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
الاتجاهات المستقبلية
في حين أن معدل نجاح «xFakeSci» الحالي بنسبة 94 في المائة، وهي نسبة مثيرة للإعجاب، يعترف حامد بالحاجة إلى التحسين المستمر. وهو يخطط لتوسيع نطاق الخوارزمية خارج الموضوعات الطبية الحيوية إلى مجالات علمية أخرى والعلوم الإنسانية. سيساعد هذا التطبيق الأوسع في تحديد ما إذا كانت أنماط الكلمات المحددة صالحة عبر التخصصات المختلفة.
يتوقع حامد أيضاً أن يصبح الذكاء الاصطناعي متطوراً بشكل متزايد، مما يستلزم خوارزميات كشف أكثر شمولاً. وعلى الرغم من الإنجازات الحالية، يظل الباحث متفائلاً بشأن العمل الذي ينتظره، مؤكداً أهمية الجهود الجارية لتعزيز دقة الخوارزمية وضرورة زيادة الوعي بانتشار الأوراق العلمية المزيفة.