Conteúdo criado por humanos, o novo “ouro” da Internet?

Até pouco tempo atrás, falar em conteúdos para a Web criados por humanos, não faria muito sentido, afinal todos tinham essa origem. No entanto, as coisas estão mudando rapidamente e em futuro não muito distante, encontrá-los, poderá ser equivalente a encontrar ouro.

Se você não sabe do que estamos falando e a criação de conteúdo para a Web é parte importante da sua estratégia de negócios, então você precisa reservar um tempo e ler o que preparamos pra você!

Conteúdos na era das inteligências artificiais

Como já deve ser de conhecimento de muita gente, mais da metade dos novos conteúdos baseados em texto, já é gerado por modelos de inteligência artificial generativa, como o ChatGPT e as alternativas similares.

Era de se esperar que isso acontecesse, pelas seguintes razões:

  • A produtividade, a velocidade com que uma IA generativa produz, é muito superior a que um escritor humano é capaz;

  • O custo de produção do conteúdo, é significativamente inferior;

  • Uma IA pode “trabalhar” 24 horas por dia, aos fins de semana, nos feriados, sem férias e sem qualquer vínculo empregatício.

Essas vantagens, soam como música para muitas empresas, que não hesitam e nem se sentem constrangidas em trocar um redator humano, ainda que seja um freelancer / ghost writer, por uma das centenas de opções de agentes de IA dedicados à escrita.

Há desvantagens? Sim, há.

Diferentes estudos e pesquisas têm indicado, que apesar das inegáveis e sedutoras vantagens acima, os conteúdos textuais criados por bons profissionais, ainda superam as criações dos “robôs escritores”.

Em linhas gerais, conteúdos gerados por humanos, entregam os seguintes benefícios se comparados aos seus “concorrentes”:

  • Tráfego – é sensivelmente maior o tráfego associado ao conteúdo de origem humana;

  • Engajamento – o engajamento (cliques, comentários, curtidas, etc) é bastante superior;

  • Conversão – outro indicador importante, que são as taxas de conversão, são melhores também;

  • Contexto – temas onde é importante a contextualização da informação, conferindo utilidade e compreensão ao conteúdo, é outro aspecto que os redatores humanos conseguem se sobressair;

  • Qualidade – a qualidade do conteúdo gerado, é mantida ao longo do tempo, o que não acontece com as IAs generativas, que apresentam queda na qualidade e precisão das respostas dadas conforme vão “trabalhando”;

  • Criatividade – em função das emoções e das experiências reais, um redator humano é capaz de ideias mais criativas;

  • Originalidade – a originalidade do conteúdo, é outra vantagem frequentemente observada.

Portanto, não se trata de resistir às mudanças ou de se apegar ao passado. Textos de escritores de carne e osso, ainda têm seu valor!

Mas esse breve comparativo das qualidades de um e do outro lado, ainda não é o cerne da questão.

Não custa lembrar, que uma IA em essência, nada mais é do que um sistema informático, ainda que dotado de muita tecnologia e amparado por uma sofisticada infraestrutura. Significa dizer que questões como vaidade, satisfação, ego, realização, são apenas verbetes para esses grandes modelos de linguagem.

Em outras palavras, eles não têm interesse na competição visando decidir quem é o melhor. Apenas fazem seu “trabalho” e cumprem o que foram programados para fazer, mas sem humanidade e o que isso representa.

Por que o conteúdo gerado por humanos é importante?

Em parte já respondemos implicitamente à pergunta acima, ao destacar as vantagens da autoria humana.

No entanto, alguns dos aspectos mais importantes, estão relacionados ao modo como um LLM (Large Language Model, ou Grande Modelo de Linguagem, em português) – outra nomenclatura usada para IAs generativas – é concebido.

Uma etapa essencial para a eficiência de qualquer grande modelo de linguagem, é a fase de treinamento / aprendizado de máquina (machine learning) e que resumidamente, consiste de usar conteúdos da própria Web para ensinar a IA sobre cada assunto que ela conhecerá.

Na medida que os conteúdos humanos e suas características (originalidade, criatividade, emotividade, contextualização, etc), tornam-se escassos e dão lugar a outros gerados por IAs, a diversidade, as nuances e toda a riqueza típica da informação usada no treinamento, tende a diminuir e consequentemente o desempenho na entrega das respostas, será afetado negativamente.

Mas há outras consequências, igualmente relevantes:

  • Alucinações – as alucinações de IA ocorrem quando não há precisão, não há correção nesses dados, ou ainda, quando eles estiverem incompletos, enviesados ou não estiverem íntegros, fazendo com que o modelo aprenda “errado”, produzindo resultados incorretos ou enganosos, fornecendo informações falsas e até produzindo decisões inadequadas;

  • Viés na IA – também chamado de viés de aprendizado ou ainda, viés de algoritmo, refere-se ao modelo que produzem respostas enviesadas, como consequência dos vieses humanos. Na hipótese de diminuir a diversidade de conteúdos, é possível o aumento da ocorrência de viés na IA;

  • Qualidade e repetição – o aumento de conteúdo gerado por outras IAs no processo de treinamento, acarretará ao longo do tempo, a perda da qualidade, com respostas cada vez mais genéricas, repetitivas ou distorcidas ("AI inbreeding" ou "introsseção" em IA, em português);

  • Fidelidade – os bons conteúdos humanos (blog posts, matérias, artigos, livros, etc) geralmente são criados com verificação da veracidade, fidelidade aos fatos e baseados em experiências reais. Sem esses mecanismos, as IAs podem acabar por propagar desinformação.

  • Limitação – a ausência de abordagens e enfoques humanos em novos conteúdos, também empobrece a variedade dos dados e fará com que um LLM fique limitado / restrito aos padrões do passado, sem evoluir e sem incorporar as mudanças e inovações.

E se isso tudo não fosse suficiente, há ainda questões de cunho ético, como é o processo aberto contra a Meta (Facebook, Instagram e WhatsApp) nos Estados Unidos, alegando que no treinamento do seu modelos de inteligência artificial (Llama), foi utilizado conteúdo protegido por direitos autorais, sem a devida autorização dos seus detentores.

São supostamente 81,7 terabytes de dados, obtidos de fontes como LibGen, LibTorrent e Z-Library, que são bibliotecas online de distribuição ilegal de conteúdo, via protocolo torrent.

Os e-mails anexados ao processo, indicam que os funcionários da Meta sabiam que o download dos arquivos era ilegal.

Seria uma manobra para tornar seu LLM mais poderoso que os seus concorrentes, ou já prevendo os impactos de uma Web que tem cada vez menos conteúdos humanos? Pode ser ambas as coisas.

Por que conteúdo humano pode valer ouro?

Respondendo a pergunta acima, primeiro, porque a continuar nesse ritmo, ele pode se tornar tão escasso quanto o metal dourado e como vimos, ainda é essencial no processo de desenvolvimento dos modelos de IA.

Todavia, há outros motivos:

  • Algoritmos de busca – os algoritmos de busca estão em constante aprimoramento – a exemplo do Core Update de Agosto / 2024 – para entregar “…conteúdo original, de alta qualidade e que prioriza as pessoas, demonstrando qualidades do E-E-A-T...” e que é a sigla para Experience, Expertise, Authoritativeness e Trust, que em português significa respectivamente Experiência, Perícia, Autoridade e Confiança, o que por enquanto, só é possível por meio dos escritores humanos;

  • Essência humana – da mesma forma que as pessoas preferem uns escritores aos outros, pode chegar o momento de terem que buscar aquilo que só um ser pensante ainda é capaz de traduzir em palavras carregadas de valor, de sentimento e de significação para outra pessoa, aspectos intrínsecos e restritos aos seres humanos;

  • Incapacidades – conforme já discutimos no post “Como criar conteúdo para sites na era da Inteligência Artificial?”, as IAs ainda não são capazes de:

    • Pensar – no atual estágio evolutivo, os modelos de IA ainda não são capazes de pensar. Não na amplitude que tem essa ação;

    • Vivência – parte do conhecimento que adquirimos, é fruto das nossas experiências de vida, algo que nem mesmo uma sofisticada rede neural é capaz de simular;

    • Emoções – os modelos de IA são desprovidos de emoções, que em muitas situações é componente fundamental de determinados tipos de conteúdos;

    • Construção de metáforas – ainda são pouquíssimo hábeis na busca de paralelos, no uso de exemplos e analogias, ou na construção de metáforas que facilitam a compreensão e riqueza dos temas abordados;

    • Originalidade – embora o termo “generativa”, que geralmente acompanha as IAs “redatoras de conteúdo”, sugira que criam coisas novas, na prática estão mais para “copiativas”! É comum que seus conteúdos contenham trechos inteiros de material produzido por terceiros;

    • Limitadas – outra característica presente em muitos LLMs, é sua incapacidade de superar paradigmas. Em condições “normais”, pelo contrário, o seu modelo de treinamento favorece e consolida os paradigmas, incluindo até os piores, quando por falhas no treinamento, o aprendizado se baseou em desinformação / fake news, preconceitos, estereótipos, etc;

    • Insights – esse é outro fenômeno cognitivo que é privilégio só de pessoas e que ocorre em função de uma diversidade de fatores essencialmente humanos, como as emoções e experiências reais. Falando o português claro, “IAs, não tem sacadas!”.

  • Oásis no deserto – pode chegar um tempo, no qual o conteúdo humano seja como “um oásis no deserto”, representando uma área fértil e propícia à vida, em meio a um ambiente árido e hostil. Essa condição também favorece o sentido de escassez e como geralmente acontece, o que é escasso, o que é raro, torna-se mais valioso e desejado. Também necessário, algumas vezes;

  • Identificação – desde que o material criado por robôs começou a proliferar, pesquisas e estudos têm sido feitos para avaliar o grau de eficiência comparativamente aos redatores humanos e, conforme já mencionamos, estes conseguem textos mais envolventes e que geram mais identificação por parte de quem importa – uma pessoa de carne e osso!

Como saber se um conteúdo foi feito por IA?

Nesse ponto, que você já sabe o valor que tem conteúdo feito por um sujeito, de forma autêntica e à “moda antiga”, se você tem pessoas que cuidam das postagens, dos artigos, dos diversos textos do seu site ou blog, deve estar se perguntando: “Quem está escrevendo de fato? Uma pessoa ou uma IA?”.

Se esse tipo de preocupação procede, saiba que existem meios de identificar se o material por trás de alguma manifestação da sua presença digital, seja tão genuíno quanto esse que você lê.

Há alguns sinais que são comuns nos textos das IAs generativas:

  • Repetição de frases e certo exagero no uso de algumas palavras-chave. Elas ainda não sabem usar sinônimos para enriquecer e privilegiar as buscas por outros termos;

  • Os assuntos costumam ser tratados com certa superficialidade;

  • Há limitação na adoção de nuances, mudanças de contexto e abordagens e enfoques específicos;

  • Os bons conhecedores da língua portuguesa, notarão construções gramaticais incomuns / estranhas e erros de sintaxe;

  • Na comparação com o material contido nas primeiras ocorrências de uma busca orgânica, é comum encontrar muita semelhança com vários trechos;

  • É razoavelmente comum um tom impessoal e formal, já que ela não tem uma persona em mente;

  • Outro importante diferencial, é a falta de um estilo de escrita. Um profissional da área, com alguns anos de experiência, possivelmente já construiu o seu estilo, que pode ser reconhecível na forma como coloca suas ideias em palavras.

No entanto, às vezes não é fácil e nem tão evidentes os sinais presentes na escrita, mas nesses casos, por irônico que possa parecer, há IAs que “entregam” outras IAs, ou seja, estimam a probabilidade de um conteúdo ter sido criado por um robô.

A seguir listamos algumas das principais ferramentas capazes de detectar conteúdo gerado por IA:

  • Copyleaks – informa a probabilidade de um texto ser de IA, bem como identifica conteúdo eventualmente plagiado;

  • Undetectable.AI – também identifica se o texto é de autoria de um robô, bem como a presença do padrão de redação de várias ferramentas populares;

  • Smodin – é a ferramenta mais simples de usar, mas também bastante limitada, já que analisa textos até o limite de 5000 caracteres;

  • Neural Writer – simples, prática e disponível para vários idiomas e é possível submeter textos com até 10000 caracteres;

  • Sinônimos – é um site “.com.br”, é simples, mas na versão gratuita, restringe o texto ao máximo de 1000 (um mil!) caracteres e, portanto, só resolve para conteúdos bem curtos. Para se ter uma ideia, o presente post tem cerca de 13 mil!

Conclusão

A rápida e exagerada disseminação de textos escritos por inteligências artificiais generativas, pode fazer com que os conteúdos produzidos por redatores humanos, torne-se escasso e bastante valioso.

Comentários ({{totalComentarios}})