As comportas foram abertas para a construção de modelos de raciocínio de IA baratos. Pesquisadores da Stanford e da Universidade de Washington desenvolveram um modelo que apresenta um desempenho comparativamente aos modelos OpenAI O1 e Deepseek R1 em matemática e codificação – por menos de US $ 50 em créditos de computação em nuvem. Além disso, o modelo foi treinado em apenas 1.000 perguntas e levou apenas 26 minutos e 16 GPUs da NVIDIA H100. O pesquisador de Stanford, Niklas Muennightoff, disse em um e -mail para Mashable que o custo é uma estimativa baseada no tempo de execução da GPU e no número de GPUs H100 usadas. Veja também: Conheça o QWEN 2.5 da Alibaba, um modelo de IA que afirma vencer o Chatgpt da Deepseek e Openai, a indústria de IA ultimamente, é sobre como novas abordagens para o processo de pré e pós -treinamento podem economizar maciçamente os custos de computação, como evidenciado pelo impacto disruptivo de Deepseek. Além disso, os desenvolvedores agora podem construir os modelos de IA existentes a pouco ou nenhum custo, por meio de APIs, acesso de código aberto e até modelos de código fechado, destilando seus dados, reduzindo ainda mais os custos. Velocidade de luz mashable De acordo com o trabalho de pesquisa da equipe, publicado na última sexta -feira, o S1 foi treinado em um conjunto de dados que consiste em “1.000 perguntas cuidadosamente selecionadas combinadas com traços de raciocínio e respostas destiladas de Gêmeos Pensando em Experimental”. O Modelo Experimental de Pensamento de Gêmeos do Google é acessível com limites diários através do estúdio de IA. Embora seja um modelo de código fechado, isso claramente não impediu os pesquisadores de usarem suas respostas. Veja também: o OpenAI lança ‘Deep Research’ Agent para o ChatGPT Next, os pesquisadores usaram um modelo “fora da prateleira” do laboratório de propriedade da Alibaba, Qwen, e realizou o ajuste fino supervisionado de seu conjunto de dados com curadoria. Em seguida, a equipe criou um orçamento de token para controlar a quantidade de tempo de computação para testar o modelo. Se o S1 passou por todo o orçamento para pensar em fichas, ele foi cortado e forçado a gerar qualquer resposta que surgisse. Se os pesquisadores quisessem que o modelo gastasse mais “computação no tempo de teste” em um problema, eles simplesmente diriam ao modelo para “esperar”, o que estendeu seu tempo de pensamento e levou a resultados mais precisos. Ao controlar a quantidade de tempo e a computação gasta em um problema, os pesquisadores conseguiram mostrar como o aumento da equipe de pensamento leva a um melhor desempenho. O S1 é um exemplo de modelos de raciocínio de código aberto que foram desenvolvidos para uma fração do custo dos modelos principais do Google e OpenAI. Em janeiro, os pesquisadores da UC Berkeley divulgaram um modelo de raciocínio de código aberto chamado Sky-T1 que custou US $ 450 “, demonstrando que é possível replicar recursos de raciocínio de alto nível de maneira acessível e eficiente”, de acordo com sua postagem no blog. Há também o modelo de raciocínio RSTAR-MATH de código aberto dos pesquisadores da Microsoft Asia, Tulu 3, do Instituto de Pesquisa de Pesquisa Não Faccalista AI2, e o Huggingface tem sua própria iniciativa de replicar o R1 da Deepseek. À medida que os modelos de alta qualidade se tornam mais acessíveis e mais baratos, estamos começando a ver uma mudança de poder dos poucos rebatedores pesados da IA, para muitos. Tópicos Inteligência Artificial OpenI
