Como executar IAs localmente e transformar o seu ambiente de trabalho/estudos

Atualmente existem muitas opções de plataformas que oferecem serviços de IA para o público geral, como ChatGPT da OpenAI, Claude da Anthropic e Gemini do Google. São ferramentas extremamente uteis no dia a dia, especialmente no trabalho e nos estudos, se usado da maneira certa você terá acesso a uma fonte de conhecimento e pesquisa incrível, e isso lhe dará uma maior produtividade nas suas tarefas.

Porem, existem algumas desvantagens nessas plataformas, o fato de o acesso a modelos mais avançados serem pagos, e que você acaba compartilhando os seus dados com esses provedores, embora, alguns ofereçam a opção de você escolher que seus dados não sejam usados para treinamento. Isso pode acabar limitando um pouco o que você pode fazer e onde você pode usar essas IAs (Inteligências artificiais).

O mundo dos modelos open source

Indo contra a maré dos modelos pagos e restritos, existem diversos pesquisadores e empresas desenvolvendo modelos que são gratuitos e abertos ao público geral, para uso tanto pessoal como comercial. Uma das grandes empresas que está envolvida nessa meio é a Meta (Facebook) com seu modelo LLaMA, que é usado como base por diversos outros modelos, como Phind-CodeLlama do https://www.phind.com/, focado em programação.

O que são LLMs ?

LLMs são modelos de linguagem de grande porte, modelos de inteligência artificial treinados em enormes quantidades de dados de texto para “aprender” padrões e relações na linguagem humana. São modelos usados em diversas tarefas relacionadas à linguagem, como geração de texto, tradução, resumos, geração de código, respostas e perguntas, análise de sentimentos e muito mais.

Uma das principais vantagens dos LLMs é que eles podem lidar com entradas de linguagem natural (Suas perguntas ou solicitações, por exemplo) e gerar saídas coerentes e relevantes ao contexto. No entanto, os LLMs ainda têm limitações, como falta de entendimento real do assunto, ou seja, ele não entende realmente o que ele “diz”, simplesmente faz a previsão do que deve ser “dito” com base em cálculos estatísticos e no seu treinamento. Também, esses modelos podem conter vieses nos seus dados de treinamento (Como alguma tendência racista ou preconceituosa de algum tipo), possíveis riscos de segurança e privacidade, entre outros.

Mas, sem dúvida, eles representam um avanço significativo na área de processamento de linguagem natural e ao campo de inteligência artificial.

No futuro, todo o nosso consumo de informação será mediado por sistemas de IA. Eles constituirão basicamente o repositório de todo o conhecimento humano. E você não pode ter esse tipo de dependência de um sistema fechado e proprietário. - Yann LeCun cientista chefe de IA da Meta

Como usar os modelos open source em minha máquina local

Existem atualmente algumas iniciativas sendo desenvolvidas que permitem ao público geral, usar esses modelos localmente em seu computador, de forma prática e eficaz, mesmo sem ter nenhum conhecimento em programação, ciência de dados ou inteligência artificial.

Um dos benefícios de se ter um modelo desses executando localmente em seu computador é que você tem o controle total dos seus dados e não necessita de conexão com a internet. Você pode usa-los para escrever documentos, auxiliar na programação ou simplesmente resolver duvidas pontuais que você tenha (Lembre-se de nunca confiar 100% na resposta de qualquer modelo que seja, mesmo os mais avançados podem conter erros).

Jan.ai

Jan é uma alternativa open source ao ChatGPT e outros serviços de IA, nele você pode baixar e usar modelos de IA sem complicação.

Entre no site oficial: https://jan.ai/

Baixe o executável correspondente ao seu sistema operacional, após o download clique para abrir. A instalação começará automaticamente e será criado um atalho na sua área de trabalho, você verá uma tela como esta quando o programa abrir:

Clicando nos quatro quadrados no menu lateral você pode ir até o hub de modelos, onde você pode baixar um. No entanto, esteja atento que você deve ter pelo menos 8GB de memória ram para executar um modelo, embora, 16GB de memória ram são recomendados.

Vamos escolher o Trinity-v1.2 7B Q4 como exemplo, clique em “Download”.

O download começará em segundo plano.

Clique em “use” depois que o modelo estiver baixado. Volte novamente ao chat clicando no símbolo de chat no menu lateral. Depois é só escrever no chat para testar o modelo:

Você pode dar instruções adicionais no menu a direita, como, por exemplo, forçar o modelo a falar em um idioma especifico, ou dizer para que ele se comporte de uma certa maneira, etc., além disso, você pode alterar livremente entre os modelos que você baixou aqui também.

Com Jan, você ainda pode iniciar um servidor local, que responde no padrão da API da OpenAI, sem importar o modelo que você use, o que deixa a integração com outros programas no seu computador super fácil, como o VS Code por exemplo, mas isso será tema de outro artigo.

LM Studio

LM Studio é uma outra poderosa opção para rodar modelos LLMs localmente em sua máquina, inclusive, ele pode até ser integrado ao Jan. Principalmente para baixar modelos diferentes dado que ele possui uma poderosa ferramenta de busca e download de modelos integrada ao Hugging face.

Hugging face é uma plataforma/infraestrutura de cloud para modelos, datasets e mais.

Imagem do tutorial de instalação do LM Studio

Baixe o LM Studio aqui: https://lmstudio.ai/

O processo de instalação é o mesmo do Jan, basta fazer o download e clicar no executável para instalar e ele instalará automaticamente. Ao abrir você verá esta tela:

Você pode buscar um modelo dentre os recomendamos ou fazer a busca por um clicando no símbolo de lupa no menu lateral a esquerda. Vamos baixar o modelo Deepseek Coder 6.7B que é ****um modelo baseado no LLaMA da Meta.

Ao clicar em download você verá que o modelo começou a ser baixado olhando a parte de baixo da tela, chamada “Model Downloads”:

Depois que modelo estiver baixado, é só clicar no ícone de chat no menu lateral, e depois na parte superior você verá um botão grande para carregar o modelo, carregue aqui o modelo que você baixou. Depois, é só começar a conversar:

Conclusão

Jan e LM Studio são duas ótimas opções open source de programas para execução de modelos localmente, e como vimos também trazem os benefícios de se ter:

Privacidade e segurança dos dados Ao rodar localmente, os dados do usuário e as consultas não precisam ser enviados para servidores remotos. Isso reduz os riscos de vazamento de dados confidenciais e aumenta a privacidade.
Controle e personalização Com um modelo local, o usuário tem mais controle sobre a configuração, personalização e potencial modificação do modelo para atender às suas necessidades específicas.
Independência da conexão com a internet Os modelos locais podem operar sem necessidade de conexão com a internet, o que é útil em situações com conectividade ruim ou limitada.
Velocidade e latência reduzidas Como não há necessidade de comunicação com servidores remotos, as respostas dos modelos locais tendem a ser mais rápidas e com menor latência.

No entanto, as desvantagens incluem os requisitos de armazenamento e poder computacional significativos para rodar LLMs localmente. Como o recomendado de 16GB de ram, e uma cpu razoavelmente recente, modelos menores como os usados nos exemplos podem ser executados apenas na CPU + Memória RAM. Porem se você possuir uma GPU e a depender da quantidade de VRAM, poderá executar modelos ainda mais poderosos.

Nos próximos artigos, irei mostrar como configurar uma alternativa ao Github Copilot localmente, como usar modelos de IA no terminal, como gerar imagens localmente de graça e até mesmo configurar um ambiente parecido com ChatGPT no seu computador.