DEVELOPMENT OF SOFTWARE AND APPLICATION OF ARTIFICIAL INTELLIGENCE FOR OBTAINING REAL-TIME AGRICULTURAL INFORMATION FROM SOCIAL MEDIA
REGISTRO DOI: 10.69849/revistaft/pa10202510101148
Fábio Cardozo da Silva1
Mauro Antonio Homem Antunes2
José Airton Chaves Cavalcante Junior3
Leonardo Machado Molinaro4
Resumo
Este trabalho apresenta o desenvolvimento de um método inovador que integra bots de coleta de dados e modelos de inteligência artificial generativa para automatizar o pré-processamento de informações agropecuárias em tempo real oriundas de mídias sociais, como Facebook, Instagram e X. A metodologia proposta abrange a varredura automatizada de postagens, a conversão de dados não estruturados em formatos semiestruturados e a classificação criteriosa das informações mediante uma métrica gradual de pertinência, aplicada por motores de IA que avaliam e organizam os dados sem gerar conteúdo novo. Os resultados indicam que a automação do pré-processamento proporciona ganhos significativos em produtividade e economia de tempo, ao possibilitar uma triagem objetiva e eficiente da massa de dados disponível, cuja magnitude tornaria inviável a análise manual tradicional. A categorização realizada pela IA atendeu a níveis aceitáveis de precisão e consistência, validando a confiabilidade do método mesmo diante dos desafios típicos como as alucinações de IA. A integração dos dados processados com ferramentas de Business Intelligence permite visualizações dinâmicas e filtragens personalizadas, fomentando a aplicação de técnicas avançadas de storytelling para a comunicação científica. Este método detém grande potencial para transformar a pesquisa agropecuária e a formulação de políticas públicas, ao estruturar dados dispersos em conhecimento acionável e de alta relevância, inaugurando um novo paradigma no uso de dados digitais.
Palavras-chave: Inteligência Artificial. Bots. Big Data. Mídias Sociais. Agropecuária.
1 INTRODUÇÃO
A segurança alimentar global enfrenta um desafio monumental: a necessidade de aumentar a produção de alimentos para uma população que deve alcançar 9,8 bilhões de habitantes até 2050 (COLLOMB, 1999). Este cenário exige inovações disruptivas no setor agropecuário, onde a tecnologia da informação e comunicação (TIC) emerge como um catalisador essencial para otimizar processos, aumentar a eficiência produtiva e apoiar a tomada de decisões estratégicas baseadas em evidências científicas.
Em paralelo a este desafio global, as mídias sociais consolidaram-se como um fenômeno de comunicação sem precedentes, com 59,4% da população mundial participando ativamente dessas plataformas (KEPIOS, 2023). Essas redes geram um volume massivo de dados não estruturados que, embora potencialmente ricos em informações sobre eventos, tendências e desafios do setor agropecuário, permanecem largamente inexplorados devido à complexidade inerente à sua análise e processamento.
O problema central que esta pesquisa aborda é a dificuldade de extrair conhecimento útil e em tempo real a partir do vasto e desorganizado fluxo de dados das mídias sociais para aplicação efetiva na pesquisa agropecuária e na formulação de políticas públicas. A análise manual desses dados é impraticável devido ao volume, e as ferramentas tradicionais de pesquisa não são adequadas para lidar com a velocidade, o volume e a variedade características do Big Data social. A ausência de métodos automatizados para coletar, filtrar e analisar essas informações representa uma lacuna significativa, impedindo que pesquisadores e gestores públicos aproveitem um recurso valioso para monitorar eventos, identificar tendências emergentes e tomar decisões mais informadas e tempestivas.
Este trabalho justifica-se pela necessidade urgente de desenvolver soluções tecnológicas inovadoras que tornem os dados de mídias sociais acessíveis, estruturados e úteis para o setor agropecuário. A automação do pré-processamento de dados pode revolucionar a forma como a pesquisa é conduzida, acelerando descobertas científicas e permitindo o monitoramento de indicadores críticos em tempo real, como surtos de doenças, problemas de infraestrutura logística, flutuações de preços ou a percepção pública sobre novas tecnologias agrícolas. A criação de um método que integre bots de coleta, inteligência artificial para classificação e ferramentas de Business Intelligence para visualização oferece uma solução robusta, escalável e replicável para este desafio contemporâneo.
O objetivo geral desta pesquisa é desenvolver e validar um método eficaz para a automação do pré-processamento de dados agropecuários provenientes de mídias sociais, utilizando inteligência artificial generativa como ferramenta central de análise e classificação. Os objetivos específicos incluem: a) criar um software que utilize IA para realizar o pré-processamento automatizado, incluindo clusterização de assuntos, validação de imagens e atribuição de scores de relevância; e b) desenvolver módulos integrados para mineração de posts, armazenamento estruturado em banco de dados e apresentação de estatísticas em dashboards interativos. A hipótese central é que um sistema de informação digital que utiliza IA generativa é eficaz na transformação de dados de mídias sociais em informações úteis, confiáveis e acionáveis para a pesquisa científica e o desenvolvimento agropecuário.
2 FUNDAMENTAÇÃO TEÓRICA OU REVISÃO DA LITERATURA
2.1 Agropecuária, Tecnologia e Segurança Alimentar
A agropecuária, desde sua origem há aproximadamente 10.000 anos, constitui a base fundamental da subsistência humana e do desenvolvimento social organizado (FELDENS, 2018). Contemporaneamente, sua importância transcende a mera produção de alimentos, impactando diretamente a economia global, a saúde pública e a sustentabilidade ambiental. A projeção de crescimento populacional torna imperativa a duplicação da produção vegetal até 2050, um desafio que exige a incorporação massiva e estratégica de tecnologias avançadas (COLLOMB, 1999).
A Tecnologia da Informação (TI) tem sido um motor de disrupção em diversos setores econômicos, e na agricultura essa transformação não é diferente. A crescente penetração de dispositivos móveis e conectividade à internet no meio rural (KIFLI et al., 2021; FONSECA; SILVEIRA; MASSRUHÁ, 2018) cria um ecossistema digital propício para a geração, coleta e análise de dados em tempo real, abrindo novas fronteiras para a gestão agrícola inteligente e a pesquisa científica baseada em evidências.
2.2 Mídias Sociais como Fonte de Big Data
As mídias sociais, representadas principalmente por plataformas como Facebook, Instagram e X (anteriormente Twitter), tornaram-se canais dominantes de comunicação global, com bilhões de usuários gerando um volume colossal de dados diariamente (KEPIOS, 2023). Esse fenômeno, caracterizado como Big Data, distingue-se pelo volume exponencial, velocidade de geração e variedade de formatos das informações produzidas.
Para o setor agropecuário, esses dados representam uma fonte de inteligência sem precedentes, permitindo o monitoramento em tempo real de eventos que abrangem desde a disseminação de pragas e doenças até a avaliação de infraestrutura logística e percepções de mercado. Estudos pioneiros como o de Milusheva et al. (2021) já demonstraram o potencial transformador do uso de dados de mídias sociais para mapear eventos urbanos e identificar “hotspots” de problemas, uma metodologia análoga e adaptável ao contexto rural proposto neste trabalho.
2.3 Inteligência Artificial Generativa e Análise de Dados
A Inteligência Artificial (IA), especialmente os modelos de IA generativa como ChatGPT e Gemini, revolucionou fundamentalmente a capacidade de processar e compreender dados não estruturados em escala massiva. Baseadas em arquiteturas de redes neurais profundas e transformers, essas tecnologias podem analisar texto com alta proficiência, permitindo tarefas complexas como classificação semântica, sumarização inteligente e extração de informações contextuais (SARKER, 2021).
No contexto específico desta pesquisa, a IA generativa é utilizada não para criar conteúdo novo, mas para avaliar e classificar a relevância das informações coletadas, atuando como um filtro inteligente e objetivo. Embora o fenômeno da “alucinação” de IA (ALKAISSI; MCFARLANE, 2023) seja uma preocupação legítima, a utilização de múltiplos modelos de IA para validação cruzada e a supervisão humana especializada são estratégias eficazes para mitigar esse risco e garantir a confiabilidade dos resultados.
2.4 Workflows Científicos e Storytelling com Dados
A complexidade inerente à análise de Big Data exige uma abordagem metodológica estruturada e sistemática. Os workflows científicos, definidos como a organização sistemática e sequencial das etapas de uma pesquisa (AALST; BASTEN, 2002), garantem a transparência metodológica, a reprodutibilidade dos resultados e a eficiência operacional do processo investigativo.
A metodologia deste trabalho é concebida como um workflow integrado que combina diferentes tecnologias de forma sinérgica. Na etapa final do processo, a utilização de ferramentas de Business Intelligence (BI) para criar dashboards interativos e visualizações dinâmicas permite a aplicação de técnicas avançadas de storytelling científico. Essa abordagem, que foca em narrar a história subjacente aos dados de forma envolvente e compreensível (SERRAT, 2017), é crucial para traduzir achados complexos em insights acionáveis e impactantes para um público diversificado, incluindo pesquisadores, gestores públicos e a sociedade em geral.
3 METODOLOGIA
O método proposto foi desenvolvido como um workflow científico automatizado e integrado, utilizando a linguagem de programação Python para orquestrar a interação sinérgica entre diversas tecnologias avançadas. A pesquisa caracteriza-se como aplicada e experimental, adotando uma abordagem metodológica mista (quantitativa e qualitativa) para a análise abrangente dos dados coletados. A solução foi projetada seguindo princípios de modularidade e escalabilidade, compreendendo as seguintes etapas sequenciais e integradas:
3.1 Coleta de Dados Automatizada
A coleta de dados é realizada por bots especializados programados para executar a técnica de web scraping nas principais plataformas de mídia social (Facebook, Instagram e X). O processo inicia-se com a parametrização detalhada da pesquisa, na qual o usuário define as palavras-chave (tags) de interesse específico (exemplos: “brusone”, “seca”, “preço do milho”, “logística agrícola”) e pode aplicar filtros geográficos refinados para direcionar a busca por região, estado ou município. Essa flexibilidade metodológica permite direcionar a coleta para temas específicos e localidades estratégicas, otimizando a relevância dos dados obtidos.
3.2 Estruturação e Armazenamento de Dados
Os dados brutos coletados (textos, metadados e links de imagens) são inicialmente armazenados em arquivos de formato semiestruturado JSON (JavaScript Object Notation), que preserva a integridade dos dados originais enquanto oferece uma estrutura flexível e padronizada. Subsequentemente, os dados são transferidos para um banco de dados relacional (SQLite), onde são organizados em tabelas relacionais e enriquecidos com informações complementares, como códigos de geolocalização do IBGE e timestamps precisos. Esta etapa de estruturação é fundamental para eliminar redundâncias, garantir a integridade referencial e permitir consultas complexas e eficientes.
3.3 Classificação com Inteligência Artificial
A etapa mais inovadora do método consiste na aplicação de IA generativa para classificar objetivamente a relevância de cada postagem coletada. Utilizando as APIs do ChatGPT (modelo gpt-3.5-turbo) e do Gemini (modelo gemini-1.5-flash), cada texto coletado é submetido a uma avaliação padronizada e sistemática. Um prompt cuidadosamente elaborado instrui as IAs a atribuírem uma pontuação (score) numa escala de 1 (baixa aderência ao tema agropecuário) a 5 (alta aderência e relevância científica) sobre a pertinência do texto ao tema pesquisado. Para consolidar e validar a avaliação, foi adaptado um F1-score, calculado pela média aritmética das duas notas, gerando um índice de relevância final para cada postagem: Acerto = (NotaChatGPT + NotaGemini) / 10.
3.4 Experimentos de Validação
Para validar rigorosamente a eficácia e a robustez do método proposto, foram conduzidos três experimentos distintos e complementares:
- Experimento Brusone: Focado na coleta e análise de dados sobre a doença fúngica do arroz, para testar a capacidade do sistema em monitorar questões fitossanitárias críticas.
- Experimento Vassoura de Bruxa no Cacaueiro: Utilizado especificamente para validar a precisão da classificação por IA em um tema agronômico específico e tecnicamente complexo.
- Experimento Brucelosis (em espanhol): Um experimento internacional com dados da Argentina para avaliar a adaptabilidade e flexibilidade do método a diferentes idiomas e contextos geográficos distintos.
3.5 Visualização e Análise de Resultados
Na etapa final do workflow, os dados processados e classificados são exportados para o Microsoft Power BI, uma ferramenta líder em Business Intelligence. Nesta camada de visualização avançada, os resultados são apresentados em dashboards interativos e dinâmicos, que incluem mapas de geolocalização das postagens, gráficos de distribuição temporal e por relevância, tabelas dinâmicas filtráveis e indicadores-chave de desempenho (KPIs). Essa abordagem visual facilita significativamente a análise exploratória dos dados e a comunicação eficaz dos resultados por meio de técnicas avançadas de storytelling científico.
4 RESULTADOS E DISCUSSÕES
A aplicação sistemática do método proposto nos experimentos de validação gerou resultados significativos que confirmam inequivocamente a sua eficácia, robustez e potencial transformador. A análise abrangeu aproximadamente 1.740 registros coletados e processados, demonstrando a capacidade operacional do sistema em lidar eficientemente com um volume substancial de dados heterogêneos.
4.1 Eficiência e Produtividade da Automação
O principal resultado observado foi o ganho expressivo de produtividade e a redução drástica no tempo de pré-processamento dos dados. A automação completa e integrada, desde a coleta inicial até a classificação final, permitiu realizar em poucas horas um trabalho que demandaria semanas ou meses se executado manualmente por métodos tradicionais. O sistema demonstrou alta eficiência operacional na coleta, com 100% das postagens recuperadas apresentando relação direta e verificável com as palavras-chave pesquisadas.
4.2 Precisão e Consistência da Classificação por IA
A classificação de relevância utilizando IA generativa atingiu níveis satisfatórios e consistentes de precisão analítica. A estratégia metodológica de usar dois modelos de IA distintos (ChatGPT e Gemini) para uma validação cruzada mostrou-se robusta e confiável. A diferença média entre as pontuações atribuídas pelos dois modelos manteve-se consistentemente em torno de 20%, o que equivale a uma variação de apenas um ponto na escala de 1 a 5, demonstrando alta concordância inter-modelo.
O F1-score adaptado provou ser uma métrica eficaz e discriminativa para ranquear a relevância dos dados coletados. Por exemplo, em um dos testes controlados, uma postagem técnica e detalhada sobre sintomas e controle da brusone recebeu notas 4 e 5, resultando em um score de 0,9 (90% de relevância), enquanto uma simples oferta comercial de mudas de cacau recebeu notas 2 e 3, com score de 0,5 (50% de relevância). Esses resultados alinham-se consistentemente com a avaliação qualitativa humana especializada, validando a confiabilidade da IA para a triagem inicial automatizada.
4.3 Visualização de Dados e Storytelling Científico
A integração com o Power BI foi fundamental para traduzir os dados estruturados em conhecimento visual, interativo e acionável. Os dashboards interativos permitiram a identificação clara de padrões geográficos significativos, como a concentração de postagens sobre uma determinada praga em regiões específicas, e a análise de tendências temporais relevantes para a tomada de decisão.
Essa camada de visualização avançada separa efetivamente a complexidade técnica do workflow (o “como” metodológico) da apresentação clara dos resultados (o “o quê” científico), facilitando substancialmente a aplicação de técnicas de storytelling científico. O pesquisador pode, assim, construir uma narrativa coesa, envolvente e cientificamente rigorosa, tornando os achados da pesquisa mais acessíveis e impactantes para diferentes públicos-alvo, desde a comunidade acadêmica especializada até gestores públicos e a sociedade civil interessada.
4.4 Discussão e Implicações Científicas
Os resultados demonstram convincentemente que o método proposto transcende uma mera solução técnica, constituindo um novo paradigma metodológico para a pesquisa agropecuária na era digital. A capacidade de monitorar eventos em tempo real e em larga escala abre possibilidades inéditas para estudos epidemiológicos, análises de mercado dinâmicas, avaliação contínua de políticas públicas e muito mais.
A principal implicação científica é a transformação de dados sociais, anteriormente considerados apenas “ruído informacional”, em uma fonte estruturada, confiável e sistematicamente utilizável de inteligência estratégica. Contudo, é crucial reconhecer as limitações metodológicas, como a dependência da qualidade e representatividade dos dados nas mídias sociais e o risco de vieses algorítmicos e “alucinações” da IA, que demandam supervisão contínua e crítica de especialistas qualificados. O método, portanto, deve ser compreendido como uma poderosa ferramenta de apoio à pesquisa científica, e não como um substituto para a análise crítica e o julgamento especializado humano.
5 CONCLUSÃO
Este trabalho demonstrou com sucesso a viabilidade técnica e a eficácia científica de um método inovador para a automação da coleta, pré-processamento e análise de informações agropecuárias a partir de mídias sociais. A integração sinérgica de bots de web scraping, inteligência artificial generativa para classificação automatizada e ferramentas de Business Intelligence para visualização avançada provou ser uma abordagem metodológica robusta, escalável e replicável, validando inequivocamente a hipótese central da pesquisa.
As principais conclusões científicas apontam que a automação do pré-processamento de dados proporciona ganhos significativos e mensuráveis de produtividade e eficiência operacional, tornando possível a análise sistemática de grandes volumes de dados que seriam intratáveis por métodos manuais tradicionais. A aplicação de IA generativa para a classificação de relevância mostrou-se um método confiável, consistente e objetivamente validável, permitindo uma triagem inicial automatizada que otimiza substancialmente o trabalho do pesquisador especializado.
A camada de visualização interativa, por sua vez, é fundamental para traduzir dados complexos e multidimensionais em conhecimento visual acionável e facilitar a comunicação científica eficaz. As contribuições deste trabalho são tanto metodológicas quanto práticas e aplicadas. Metodologicamente, estabelece-se um novo paradigma para o uso estratégico de Big Data social na pesquisa agropecuária, com um workflow transparente, reprodutível e cientificamente rigoroso.
Na dimensão prática, oferece-se uma ferramenta poderosa e acessível para o monitoramento de eventos em tempo real, o que pode subsidiar desde a vigilância sanitária especializada até a formulação e avaliação contínua de políticas públicas baseadas em evidências. As limitações identificadas, como a necessidade de supervisão humana qualificada para mitigar os riscos inerentes da IA, foram adequadamente reconhecidas e endereçadas.
Recomenda-se para trabalhos futuros a exploração de bancos de dados NoSQL para maior escalabilidade operacional, o aprimoramento contínuo dos modelos de classificação e a expansão do método para outras culturas e contextos geográficos. Em suma, esta pesquisa não apenas desenvolveu uma solução tecnológica inovadora, mas também abriu um novo e promissor campo de possibilidades para a pesquisa agropecuária contemporânea, posicionando estrategicamente os dados de mídias sociais como um ativo científico fundamental para a geração de conhecimento e a tomada de decisões mais ágeis, informadas e eficazes no setor.
REFERÊNCIAS
AALST, W. M. P. van der; BASTEN, T. Inheritance of workflows: an approach to tackling problems related to change. Journal of Software Maintenance and Evolution: Research and Practice, v. 14, n. 1, p. 55-81, 2002.
ALKAISSI, H.; MCFARLANE, S. I. Artificial hallucinations in ChatGPT: implications in scientific writing. Cureus, v. 15, n. 2, e35179, 2023.
COLLOMB, P. Une voie étroite pour la sécurité alimentaire d’ici à 2050. Roma: FAO, 1999.
FELDENS, L. O homem, a agricultura e a história. 1. ed. Lajeado: Univates, 2018.
FONSECA, F.; SILVEIRA, F. F.; MASSRUHÁ, S. M. F. S. Tecnologia da informação e comunicação e suas relações com a agricultura. Brasília, DF: Embrapa, 2018.
KEPIOS. Digital 2023: Global Overview Report. Datareportal, 26 jan. 2023. Produzido em parceria com We Are Social e Meltwater. Disponível em: https://datareportal.com/reports/digital-2023-global-overview-report. Acesso em: 28 jul. 2024.
KIFLI, G. et al. Disruption of information technology and farming empowerment strategies in Indonesia. IOP Conference Series: Materials Science and Engineering, v. 1098, n. 5, 052087, 2021.
MILUSHEVA, S. et al. Using Big Data and AI to Identify High Risk Traffic Accident Hotspots in Nairobi. Washington, D.C.: World Bank, 2021. (Policy Research Working Paper, n. 9732).
SARKER, I. H. Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions. SN Computer Science, v. 2, n. 6, 420, 2021.
SERRAT, O. Storytelling. In: SERRAT, O. Knowledge Solutions. Singapore: Springer, 2017. p. 91-95.
1 Doutorando do Programa de Pós-Graduação em Ciência, Tecnologia e Inovação em Agropecuária, Universidade Federal Rural do Rio de Janeiro. E-mail: fabio@ufrrj.br
2 Docente do Programa de Pós-Graduação em Ciência, Tecnologia e Inovação em Agropecuária, UFRRJ. Ph.D. E-mail: mauro@ufrrj.br
3 Docente do Programa de Pós-Graduação em Ciência, Tecnologia e Inovação em Agropecuária, UFRRJ. Dr. E-mail: airton@ufrrj.br
4 Graduando em Ciência da Computação, Universidade Estácio de Sá. E-mail: leomolinarodev@gmail.com