As comportas foram abertas para a construção de modelos de raciocínio de IA baratos. Pesquisadores da Stanford e da Universidade de Washington desenvolveram um modelo que apresenta um desempenho comparativamente aos modelos OpenAI O1 e Deepseek R1 em matemática e codificação – por menos de US $ 50 em créditos de computação em nuvem. Além disso, o modelo foi treinado em apenas 1.000 perguntas e levou apenas 26 minutos e 16 GPUs da NVIDIA H100. O pesquisador de Stanford, Niklas Muennightoff, disse em um e -mail para Mashable que o custo é uma estimativa baseada no tempo de execução da GPU e no número de GPUs H100 usadas. Veja também: Conheça o QWEN 2.5 da Alibaba, um modelo de IA que afirma vencer o Chatgpt da Deepseek e Openai, a indústria de IA ultimamente, é sobre como novas abordagens para o processo de pré e pós -treinamento podem economizar maciçamente os custos de computação, como evidenciado pelo impacto disruptivo de Deepseek. Além disso, os desenvolvedores agora podem construir os modelos de IA existentes a pouco ou nenhum custo, por meio de APIs, acesso de código aberto e até modelos de código fechado, destilando seus dados, reduzindo ainda mais os custos. Velocidade de luz mashable De acordo com o trabalho de pesquisa da equipe, publicado na última sexta -feira, o S1 foi treinado em um conjunto de dados que consiste em “1.000 perguntas cuidadosamente selecionadas combinadas com traços de raciocínio e respostas destiladas de Gêmeos Pensando em Experimental”. O Modelo Experimental de Pensamento de Gêmeos do Google é acessível com limites diários através do estúdio de IA. Embora seja um modelo de código fechado, isso claramente não impediu os pesquisadores de usarem suas respostas. Veja também: o OpenAI lança ‘Deep Research’ Agent para o ChatGPT Next, os pesquisadores usaram um modelo “fora da prateleira” do laboratório de propriedade da Alibaba, Qwen, e realizou o ajuste fino supervisionado de seu conjunto de dados com curadoria. Em seguida, a equipe criou um orçamento de token para controlar a quantidade de tempo de computação para testar o modelo. Se o S1 passou por todo o orçamento para pensar em fichas, ele foi cortado e forçado a gerar qualquer resposta que surgisse. Se os pesquisadores quisessem que o modelo gastasse mais “computação no tempo de teste” em um problema, eles simplesmente diriam ao modelo para “esperar”, o que estendeu seu tempo de pensamento e levou a resultados mais precisos. Ao controlar a quantidade de tempo e a computação gasta em um problema, os pesquisadores conseguiram mostrar como o aumento da equipe de pensamento leva a um melhor desempenho. O S1 é um exemplo de modelos de raciocínio de código aberto que foram desenvolvidos para uma fração do custo dos modelos principais do Google e OpenAI. Em janeiro, os pesquisadores da UC Berkeley divulgaram um modelo de raciocínio de código aberto chamado Sky-T1 que custou US $ 450 “, demonstrando que é possível replicar recursos de raciocínio de alto nível de maneira acessível e eficiente”, de acordo com sua postagem no blog. Há também o modelo de raciocínio RSTAR-MATH de código aberto dos pesquisadores da Microsoft Asia, Tulu 3, do Instituto de Pesquisa de Pesquisa Não Faccalista AI2, e o Huggingface tem sua própria iniciativa de replicar o R1 da Deepseek. À medida que os modelos de alta qualidade se tornam mais acessíveis e mais baratos, estamos começando a ver uma mudança de poder dos poucos rebatedores pesados da IA, para muitos. Tópicos Inteligência Artificial OpenI
Os pesquisadores criaram um modelo de raciocínio de IA em pé de igualdade com o Open's O1 por menos de US $ 50