През април 2021 г. поредица от странни фрази в статии в списания предизвикала интереса на група компютърни учени. Групата, ръководена от Гийом Кабанак от Университета в Тулуза, Франция, не можела да разбере защо изследователите биха използвали термините "фалшиво съзнание", "дълбока невронна организация" и "колосална информация" вместо масово признатите термини "изкуствен интелект", "дълбока невронна мрежа" и "големи данни".
По-нататъшното разследване разкри, че тези странни термини, които те наричат "изопачени фрази", вероятно са резултат от автоматизиран превод или софтуер, който се опитва да прикрие плагиатство. И те изглежда са в изобилие в статии по компютърни науки.
Робо-писатели: Възходът и рисковете на генериращия език ИИ
Изследванията показват, че Кабанак и неговите колеги са открили нов тип изфабрикувана изследователска статия и че тяхната работа, публикувана в предпечат на arXiv, може да разкрива само върха на айсберга, когато става въпрос за засегнатата литература.
За да разберат колко документи са засегнати, изследователите провели търсене за 30 изопачени фрази в статии от списания, индексирани в базата данни с цитати Dimensions. Те открили повече от 860 публикации с поне една от фразите, 500 от които били публикувани в едно списание - "Микропроцесори и Микросистеми".
"Това вреди на науката. Не можете да се доверите на тези документи, затова ние трябва да ги намерим и да ги оттеглим", казва Кабанак.
Научен термин - Изoпачена фраза
Big data |
Colossal information |
Artificial intelligence |
Counterfeit consciousness |
Deep neural network |
Profound neural organization |
Remaining energy |
Leftover vitality |
Cloud computing |
Haze figuring |
Signal to noise |
Flag commotion |
Random value |
Irregular esteem |
Подозирайки, че изопачените фрази са резултат от автоматизиран превод или софтуер, който пренаписва съществуващ текст, Кабанак и колеги пуснали селекция от резюмета от "Микропроцесори и микросистеми" и други списания през инструмент, който може да идентифицира дали текстовете са генерирани от инструмента за изкуствен интелект GPT. В публикациите в "Микропроцесори и микросистеми", маркирани от инструмента, ръчната проверка разкрила "критични недостатъци", като например безсмислен текст, както и плагиатски текст и изображения.
За да търсят по-задълбочено, изследователите изтеглили всички документи, публикувани в "Микропроцесори и микросистеми" между 2018 и 2021 г., времева рамка, която те избрали, тъй като през 2019 г. е пусната обновена версия на GPT. Анализът показал, че документите, публикувани след февруари 2021 г., са били приети е средно пет пъти по-бързо от публикуваните преди тази дата. Голяма част от тези статии идвали от автори в Китай. И една подгрупа документи имала идентични дати на подаване, преразглеждане и приемане, като повечето са били подадени в специални издания на списанието. Това е подозрително, казват авторите. За разлика от стандартните издания, наблюдавани от главния редактор, специалните обикновено се предлагат и контролират от гост-редактор и се фокусират върху конкретна област на изследване.
"Микропроцесори и микросистеми" не били единствените засегнати. Изследователите са открили доказателства за изопачени фрази в статии, публикувани в 35 други списания. "Предварителните проучвания показват, че няколко хиляди документи с измъчени фрази са индексирани в големи бази данни", пишат те, добавяйки, че "други изопачени фрази, свързани с терминологията в други научни области, тепърва ще бъдат разкрити".
Специално разследване
По времето, когато Кабанак и колегите му за първи път забелязват изопачените фрази, редакторът на "Микропроцесори и микросистеми" започнал да се притеснява за целостта и строгостта на рецензирането на статии, публикувани в някои от специалните издания на списанието.
Издателят на списанието Elsevier е започнал разследване. То все още е в ход, но в средата на юли издателят добавил обозначение за загриженост към повече от 400 статии, които се появиха в шест специални броя на списанието.
Обозначаването като предизвикващи загриженост означава, че документите в засегнатите специални издания на "Микропроцесори и микросистеми" се "преоценяват независимо" един по един и списанието допълнително ще актуализира тяхното състояние след приключване на разследванията.
Борбата срещу фабрикуваните фалшиви публикации, които лансират фалшива наука
Издателят допълва, че поради "грешка в конфигурацията в системата за редактиране" в списанието, нито главният редактор, нито редакторът, определен за обработка на документите, не са ги получили за одобрение, както трябва. "Тази грешка в конфигурацията беше временен проблем поради миграцията на системата и беше коригирана веднага след като бе открита", се казва в съобщението.
Говорител на Elsevier заяви, че разследването на "Микропроцесори и микросистеми" е установило, че авторите вероятно са използвали софтуер за обратен превод, за да прикрият плагиатство, и че това е вероятно източникът на измъчените фрази.
Разследването също така разкрива, че 49 статии, отбелязани като подозрителни от Кабанак и неговите колеги и публикувани в стандартни издания на списанието, първоначално са били изпратени към специализираните му издания и са приети от гост-редактори, "но впоследствие са публикувани в редовни издания, по заявка на авторите", се казва в изявлението. Тези документи вече са част от разследването на Elsevier, добавя той.
Елизабет Бик, анализатор на целостта на изследванията в Калифорния, известна с уменията си да забелязва дублирани изображения в документи, казва, че констатациите от изследването на Кабанак са "шокиращи". "Това е много нов и обезпокоителен тип фабрикуване на доклади", добавя тя.
Дженифър Бърн, изследовател по молекулярна онкология от Университета в Сидни, Австралия, която също работи за откриване на фабрикувани документи, казва, че това вероятно е върхът на айсберга, защото изследователите са разгледали задълбочено само едно списание от един издател. "Тези документи също така бяха открити, защото бяха с много лошо качество, но в литературата може да има по-правдоподобни документи, генерирани от AI, които да са по-трудни за откриване", добавя тя.
Cabanac, G., Labbé, C. & Magazinov, A. Preprint at arXiv https://arxiv.org/abs/2107.06751 (2021)