Openai suspeita que a Deepseek, um modelo de IA chinês significativamente mais barato que os colegas ocidentais, pode ter sido treinado usando os dados do OpenAI, provocando controvérsia e volatilidade do mercado. O surgimento da Deepseek, com seu modelo R1 como uma alternativa de baixo custo treinada por meros US $ 6 milhões, causou uma queda significativa nos preços das ações das principais empresas relacionadas à IA. A NVIDIA, um participante importante na tecnologia GPU crucial para a operação do modelo de IA, experimentou sua maior perda de um dia de todos os dias, perdendo quase US $ 600 bilhões em valor de mercado. Outras empresas como Microsoft, Meta, Alphabet e Dell também viram declínios substanciais.
O OpenAI e a Microsoft estão investigando se a Deepseek violou os termos de serviço da OpenAI, empregando "destilação", uma técnica em que dados de modelos maiores são extraídos para treinamento. O OpenAI confirmou sua conscientização sobre tais tentativas de chineses e outras empresas de alavancar a tecnologia de IA nos liderar. David Sacks, o czar da AI do presidente Trump, apóia ainda a reivindicação de extração de dados dos modelos OpenAI.
Esta situação destaca a ironia da posição do OpenAI, dadas as declarações anteriores que reconhecem a dependência de materiais protegidos por direitos autorais para o treinamento do ChatGPT e as batalhas legais em andamento que a empresa enfrenta. A submissão de janeiro de 2024 da Openai à Câmara dos Lordes do Reino Unido enfatizou a impossibilidade de treinar modelos de IA líderes de IA sem material protegido por direitos autorais. Essa postura é ainda mais complicada por ações judiciais do New York Times e 17 autores alegando violação de direitos autorais. O cenário legal em torno dos dados de treinamento da IA permanece complexo, particularmente à luz de um escritório de direitos autorais de 2018 nos EUA, que decidiu que a arte gerada pela IA não pode ser protegida por direitos autorais.