Нов метод за тренирање ChatGPT

Во новото истражување, од 12 мај 2023, насловено како: „Редок трансформатор: поефикасен и поефективен метод за обука на големи јазични модели“ се зборува за еден нов, поевтин и поефикасен, метод на тренирање на големите јазични модели, како ChatGPT.

Големите јазични модели (LLM) постигнаа најсовремени резултати на различни задачи за обработка на природен јазик, како што се машински превод, сумирање на текст и одговарање на прашања. Сепак, обуката за LLM е премногу скапа и одзема многу време.

Познато е дека за да се тренираат овие модели треба големи ресурси, огромни банки на податоци, многу труд и време. Тренирањето на ChatGPT чинело повеќе од 4 милиони американски долари, а за одржување дневно чини 100.000 долари. Но, отворените модели како Vicuna-13B, можат да се тренираат за помалку од 300 долари и имаат 92% успешност во однос на ChatGPT.

Со новата технологија тренирањето потенцијално ќе чини помалку и ќе се завршува побрзо. Методот користи механизам за ретко или спорадично внимание кој му овозможува на моделот да се фокусира на најважните делови од влезните податоци. Ова резултира со модел кој е помал и побрз за обука, а сепак постигнува најсовремени перформанси на различни задачи за обработка на природен јазик.


Тоа потсетува (по малку, бидејќи револуционерноста на АИ не може да се спореди со ништо претходно) на 1990-тите кога “mp3” фајловите направија револуција во слушањето и дистрибуција на музиката. Дотогаш еден музички албум тежеше колку денес еден филм и беше незграпен за пренесување преку интернет.

Тогаш се појави нова технологија која од секоја аудио фајл ги отстрани фреквенциите (високи и ниски) кои човечкото уво не ги перцепира. Фактички, mp3 го отстранува шумот и се она што не е битно за еден обичен слушател, а му го остава она што му е потребно за да доживее една песна. На тој начин фајлот губи тежина (и неприметливо квалитетет), но добива на приемчивост. Сето тоа предизвика пореметување, а потоа и револуција во музичката индустрија, која брзо се прилагоди на промените.

Новиот метод на тренирање големи јазични модели ќе има големо влијание врз развојот на нови поевтини модели и има потенцијал да ги направи подостапни за поширок опсег на истражувачи и програмери.

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *