De repente, Deepseek está em toda parte. Seu modelo R1 é de código aberto, supostamente treinado para uma fração do custo de outros modelos de IA, e é tão bom, se não melhor que o ChatGPT. Essa combinação letal atingiu Wall Street com força, fazendo com que os estoques de tecnologia caíssem e fazendo os investidores questionarem quanto dinheiro é necessário para desenvolver bons modelos de IA. Os engenheiros da Deepseek afirmam que o R1 foi treinado em 2.788 GPUs, que custam cerca de US $ 6 milhões, em comparação com o GPT-4 da Openai, que supostamente custou US $ 100 milhões para treinar. A eficiência de custos da Deepseek também desafia a idéia de que modelos maiores e mais dados levam a um melhor desempenho. Em meio à conversa frenética sobre as capacidades da Deepseek, sua ameaça para empresas de IA como o OpenAi e os investidores assustados, pode ser difícil entender o que está acontecendo. Mas os especialistas da IA com experiência veterana pesaram com perspectivas valiosas. Deepseek prova o que os especialistas da IA vêm dizendo há anos: Maior não é mais bem-estudado pelas restrições comerciais e acesso às GPUs da NVIDIA, a Deepseek, sediada na China, teve que ser criativa no desenvolvimento e treinamento de R1. O fato de eles conseguiram realizar esse feito por apenas US $ 6 milhões (o que não é muito dinheiro em termos de IA) foi uma revelação para os investidores. Mas os especialistas da IA não ficaram surpresos. “No Google, perguntei por que eles estavam fixados na construção do maior modelo. Por que você está buscando o tamanho? Que função você está tentando alcançar? Por que o que você ficou chateado com o fato de você não ter o maior modelo? Eles eles Respondi me demitindo: “Postou Timnit Gebru, que foi famosa do Google por chamar o viés da IA, no X. Tweet de velocidade de luz mashable pode ter sido excluída do clima do rosto e da AI Sasha Luccioni apontou como o investimento da IA é precariamente construído sobre Marketing e hype. “É selvagem que sugerir que um único LLM (de alto desempenho) seja capaz de alcançar esse desempenho sem forçar a merda de milhares de GPUs é suficiente para causar isso”, disse Luccioni. O Tweet pode ter sido excluído esclarecendo por que o Deepseek R1 é um R1 tão grande do Dealdeepseek, apresentado comparativamente ao modelo OpenAI O1 em benchmarks -chave. Superou marginalmente, igualou ou caiu logo abaixo de O1 em testes de matemática, codificação e conhecimento geral. Ou seja, existem outros modelos por aí, como Claude Antrópico, Google Gemini e Llama de modelo de código aberto da Meta, que são igualmente capazes para o usuário médio. Mas R1 causando um frenesi por causa de quão pouco custou fazer. “Não é mais inteligente do que os modelos anteriores, apenas treinados mais baratos”, disse o cientista da AI, Gary Marcus. O Tweet pode ter sido excluído, o fato de que a Deepseek foi capaz de construir um modelo que compete com os modelos do Openai é bastante notável. Andrej Karpathy, que co-fundou o Openai, postou em x, “Isso significa Uma boa demonstração de que ainda há muito o que passar com dados e algoritmos “. O tweet pode ter sido excluído, o professor Ethan Mollick disse que não se trata de suas capacidades, mas modelos aos quais as pessoas atualmente têm acesso. “Deepseek é um modelo muito bom, mas geralmente não é um modelo melhor que o O1 ou Claude”, disse ele. “Mas, como é livre e recebe muita atenção, acho que muitas pessoas que estavam usando modelos gratuitas ‘mini’ estão sendo expostas ao que uma IA do início de 2025 do 2025 pode fazer e está surpresa”. O Tweet pode ter sido excluído, um para os modelos de código aberto, o Deepseek R1 Breakout é uma grande vitória para os proponentes de código aberto que argumentam que o acesso democratizador a modelos poderosos de IA, garante transparência, inovação e concorrência saudável. “Para as pessoas que pensam que ‘a China está superando os EUA na IA’, o pensamento correto é ‘os modelos de código aberto estão ultrapassando os fechados'”, disse Yann Lecun, cientista -chefe da Meta, que apoiou o fornecimento aberto com seus próprios modelos de lhama . O Tweet pode ter sido excluído cientista da computação e o especialista em IA Andrew Ng não mencionou explicitamente o significado de R1 ser um modelo de código aberto, mas destacou como a interrupção do Deepseek é um benefício para os desenvolvedores, pois permite o acesso que, de outra forma . “O ‘Deepseek Selloff de hoje no mercado de ações – atribuído ao DeepSeek V3/R1 que interrompe o ecossistema de tecnologia – é outro sinal de que a camada de aplicativos é um ótimo lugar para se estar”, disse Ng. “A camada do modelo de fundação sendo hipercompetitiva é ótima para as pessoas que constroem aplicações”. Tweet pode ter sido excluído tópicos de inteligência artificial Deepseek
