O que os especialistas da IA ​​estão dizendo sobre Deepseek R1O que os especialistas da IA ​​estão dizendo sobre Deepseek R1

De repente, Deepseek está em toda parte. Seu modelo R1 é de código aberto, supostamente treinado para uma fração do custo de outros modelos de IA, e é tão bom, se não melhor que o ChatGPT. Essa combinação letal atingiu Wall Street com força, fazendo com que os estoques de tecnologia caíssem e fazendo os investidores questionarem quanto dinheiro é necessário para desenvolver bons modelos de IA. Os engenheiros da Deepseek afirmam que o R1 foi treinado em 2.788 GPUs, que custam cerca de US $ 6 milhões, em comparação com o GPT-4 da Openai, que supostamente custou US $ 100 milhões para treinar. A eficiência de custos da Deepseek também desafia a idéia de que modelos maiores e mais dados levam a um melhor desempenho. Em meio à conversa frenética sobre as capacidades da Deepseek, sua ameaça para empresas de IA como o OpenAi e os investidores assustados, pode ser difícil entender o que está acontecendo. Mas os especialistas da IA ​​com experiência veterana pesaram com perspectivas valiosas. Deepseek prova o que os especialistas da IA ​​vêm dizendo há anos: Maior não é mais bem-estudado pelas restrições comerciais e acesso às GPUs da NVIDIA, a Deepseek, sediada na China, teve que ser criativa no desenvolvimento e treinamento de R1. O fato de eles conseguiram realizar esse feito por apenas US $ 6 milhões (o que não é muito dinheiro em termos de IA) foi uma revelação para os investidores. Mas os especialistas da IA ​​não ficaram surpresos. “No Google, perguntei por que eles estavam fixados na construção do maior modelo. Por que você está buscando o tamanho? Que função você está tentando alcançar? Por que o que você ficou chateado com o fato de você não ter o maior modelo? Eles eles Respondi me demitindo: “Postou Timnit Gebru, que foi famosa do Google por chamar o viés da IA, no X. Tweet de velocidade de luz mashable pode ter sido excluída do clima do rosto e da AI Sasha Luccioni apontou como o investimento da IA ​​é precariamente construído sobre Marketing e hype. “É selvagem que sugerir que um único LLM (de alto desempenho) seja capaz de alcançar esse desempenho sem forçar a merda de milhares de GPUs é suficiente para causar isso”, disse Luccioni. O Tweet pode ter sido excluído esclarecendo por que o Deepseek R1 é um R1 tão grande do Dealdeepseek, apresentado comparativamente ao modelo OpenAI O1 em benchmarks -chave. Superou marginalmente, igualou ou caiu logo abaixo de O1 em testes de matemática, codificação e conhecimento geral. Ou seja, existem outros modelos por aí, como Claude Antrópico, Google Gemini e Llama de modelo de código aberto da Meta, que são igualmente capazes para o usuário médio. Mas R1 causando um frenesi por causa de quão pouco custou fazer. “Não é mais inteligente do que os modelos anteriores, apenas treinados mais baratos”, disse o cientista da AI, Gary Marcus. O Tweet pode ter sido excluído, o fato de que a Deepseek foi capaz de construir um modelo que compete com os modelos do Openai é bastante notável. Andrej Karpathy, que co-fundou o Openai, postou em x, “Isso significa Uma boa demonstração de que ainda há muito o que passar com dados e algoritmos “. O tweet pode ter sido excluído, o professor Ethan Mollick disse que não se trata de suas capacidades, mas modelos aos quais as pessoas atualmente têm acesso. “Deepseek é um modelo muito bom, mas geralmente não é um modelo melhor que o O1 ou Claude”, disse ele. “Mas, como é livre e recebe muita atenção, acho que muitas pessoas que estavam usando modelos gratuitas ‘mini’ estão sendo expostas ao que uma IA do início de 2025 do 2025 pode fazer e está surpresa”. O Tweet pode ter sido excluído, um para os modelos de código aberto, o Deepseek R1 Breakout é uma grande vitória para os proponentes de código aberto que argumentam que o acesso democratizador a modelos poderosos de IA, garante transparência, inovação e concorrência saudável. “Para as pessoas que pensam que ‘a China está superando os EUA na IA’, o pensamento correto é ‘os modelos de código aberto estão ultrapassando os fechados'”, disse Yann Lecun, cientista -chefe da Meta, que apoiou o fornecimento aberto com seus próprios modelos de lhama . O Tweet pode ter sido excluído cientista da computação e o especialista em IA Andrew Ng não mencionou explicitamente o significado de R1 ser um modelo de código aberto, mas destacou como a interrupção do Deepseek é um benefício para os desenvolvedores, pois permite o acesso que, de outra forma . “O ‘Deepseek Selloff de hoje no mercado de ações – atribuído ao DeepSeek V3/R1 que interrompe o ecossistema de tecnologia – é outro sinal de que a camada de aplicativos é um ótimo lugar para se estar”, disse Ng. “A camada do modelo de fundação sendo hipercompetitiva é ótima para as pessoas que constroem aplicações”. Tweet pode ter sido excluído tópicos de inteligência artificial Deepseek

By Daniel Wege

Consultor HAZOP Especializado em IA | 20+ Anos Transformando Riscos em Resultados | Experiência Global: PETROBRAS, SAIPEM e WALMART

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *