Февруари месец ще бъде белязан със скоростно състезание между техгигантите, надпреварващи се в сферата на изкуствения интелект. Няколко часа след като OpenAI пусна своя нов ИИ модел от типа text-to-video, от основния им опонент Google решиха да изпратят изненадващ имейл на своите клиенти, с който да обявят пускането на Gemini 1.5.
След като Sora на Сам Олтман ни обещава да ни изненада (поне според представянето) с ИИ който да може да създава висококачествено видео съдържание, от управлявания от Сундар Пичай не се забавиха с отговора. Oще в самото си въведение, от Google обещават, че новият модел ще „осигури драстично подобрена производителност и ще разбира по-добре подробен контекста във всичките си модалности“.
Gemini 1.5 ще използва MoE архитектура
Демис Хасабис, CEO на Google DeepMind определи стартирането на Gemini 1.5 като „Вълнуващо време за изкуствения интелект“. От името на Gemini Team той заявява, че новият модел е подобрил значително своето представяне в различните тестове. Подобно на Sora модела на OpenAI, Gemini 1.5 следва да бъде по-ефективен по отношение на трениране и последващо използване. Новият ИИ е изграден на Mixture-of-Experts (MoE) архитектура. В оригиналната публикация от Google, те адресират към информация от arxiv.org, свързана със специфичния MoE лейър, който са използвали. Можете да прочетете за него ТУК.
Първият Gemini 1.5, който ще бъде пуснат с ранен достъп за тестърите, ще бъде активен само за Pro версията (припомняме, че моделът разполага с Nano и Ultra варианти). Той ще представлява среден по размер мултимодален модел, оптимизиран за скалиране на огромен набор от задачи и ще се справя добре поне колкото неговата 1.0 Ultra вариация (най-големият ИИ модел на Google на този етап). Според Демис Хасабис, моделът най-после ще превъзмогне предизвикателството пред разбирането на по-дълги промптове, поради изграденият механизъм на long-context understanding (разбиране на дълъг контекст).
Какво е количеството на токените в модела?
Gemini 1.5 Pro ще стартира със стандартен context window от 128 000 токена. От днес (16.02.2024 г.), ексклузивна група от девелопъри и корпоративни (enterprise) клиенти ще могат да изпробват ъпдейта с 1 милион токена чрез AI Studio и Vertex AI. За справка, Gemini 1.0 Pro версията разполага с 32 000, GPT-4 Turbo – със 128 000, Claude 2.1 с 200 000.
Докато традиционните Transformer архитектури функционират като една голяма невронна мрежа, MoE моделите действат като по-малки нишови такива, поясняват от Google. В зависимост от зададения промпт, вторите (MoE моделите) селективно активиран най-релевантния път в тяхната невронна мрежа. Тази специфика подобрява ефективността на Gemini 1.5. Последната иновация на Google в тази технология позволява на модела им да изучава комплексни задачи за по-кратко време, докато запазва качеството и увеличава ефективността. Според компанията това им позволява да оптимизират работния процес на различните си екипи и с това да обновяват Gemini с по-бърз темп.
По-добър контекст, по-добри възможности
В блога на компанията поясняват, че контекстуалният прозорец на един ИИ модел е изработен от огромен набор от токени. Те представляват различните елементи, които един изкуствен интелект използва, за да обработи въведената в него информация. Токените могат да представляват цели или части от думи, изображения, видео, аудио и код. Колкото по-голям е контекстуалния прозорец на един модел, толкова повече информация той може да обработи при зададен промпт.
От Google заявяват, че Gemini 1.5 Pro може да обработи огромно количество информация наведнъж, включително едночасово видео, 11-часово аудио, кодови бази данни с над 30 000 реда код, както и 700 000 думи.
Gemini 1.5 може да извършва сложни разсъждения
Gemini 1.5 има способностите да осъществява сложни разсъждения върху огромни количества от информация. Той може лесно да анализира, класифицира и обобщи огромно количество съдържание, въведено чрез един промпт. Като например, той може да обобщи Вашия учебник, любима книга, социологическо проучване и т.н.
В този кратък експеримент, в който екипът е изградил 326 000/1 000 000 токена, екипът на Gemini 1.5 ни демонстрира, че новият модел може да намери три забавни момента в документ, който е съставен от 402 страници:
В следния клип, в който ИИ-то е на етап 696 000/1 000 000 токена, ще видите как Gemini 1.5 може да разпознае специфичен момент от 42-минутно видео:
Източници:
Статия: „Gemini на Google е вече факт“, последно проверена на 16.02.2024 г. 08:00.
Статия: „Sora на OpenAI е вече на пазара“, последно проверена на 16.02.2024 г. 08:00.
Публикация: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, последно проверена на 16.02.2024 г. 08:00.
Статия: Our next-generation model: Gemini 1.5, последно проверена на 16.02.2024 г. в 08:00
Видеоклип: Мultimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo, последно проверенo на 16.02.2024 г. в 08:00
Видеоклип: Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo, последно проверенo на 16.02.2024 г. в 08:00