Ir al menú de navegación principal Ir al contenido principal Ir al pie de página del sitio

Smart Product Backlog: clasificación automática de historias de usuario usando modelos de lenguaje de gran escala

Resumen

En los procesos de desarrollo ágil de software, específicamente de las aplicaciones inteligentes que aprovechan la inteligencia artificial (IA), el Smart Product Backlog (SPB) es un artefacto que incluye funcionalidades implementables tanto con IA como sin esta. En este contexto, existe un trabajo notable en el desarrollo de modelos de Procesamiento del Lenguaje Natural (NLP) en los que, aquellos de gran escala (LLM por sus siglas en inglés), han demostrado un rendimiento excepcional.
Sin embargo, surgió la pregunta respecto a si dichos modelos podían utilizarse en tareas de clasificación automática, sin necesidad de una anotación previa, permitiendo la extracción directa del Smart Product Backlog (SPB). En este estudio, se comparó la eficacia de las técnicas de ajuste con los métodos de prompting para esclarecer el potencial de los modelos ChatGPT-4o, Gemini Pro1.5 y ChaGPT-Mini; se construyó un set de datos con historias de usuario, clasificadas manualmente por un grupo de expertos, que permitió realizar el ensamble de experimentos y, a su vez, construir las tablas de contingencia, respectivas; y se evaluaron estadísticamente las métricas de desempeño de la clasificación de cada LLM y se utilizaron métricas de rendimiento, como la exactitud, la sensibilidad y el F1-Score, para determinar la efectividad de cada modelo. Este enfoque comparativo buscó destacar las fortalezas y limitaciones de cada LLM en el contexto de estructurar la asistencia en la construcción del SPB de manera eficiente y precisa. El análisis demostró que ChatGPT-Mini tiene limitaciones en el balance entre precisión y sensibilidad. Además, aunque Gemini Pro1.5 mostró superioridad en la puntuación de exactitud, y ChatGPT también exhibió un rendimiento aceptable, ninguno es lo suficientemente robusto para construir una herramienta completamente automatizada para la clasificación de historias de usuario. Por lo tanto, se identifica la necesidad de desarrollar un clasificador especializado que permita la construcción de una herramienta automatizada para recomendar historias de usuario viables para el desarrollo con IA, apoyando así la toma de decisiones en proyectos de software ágiles.

Palabras clave

Especificación de requerimientos software, Clasificación de historias de usuario, backlog de producto inteligente, identificador inteligente de historias de usuario, Modelos de Lenguaje a gran escala, Inteligencia artificial

PDF

Citas

  1. K. Beck, M. Fowler, Planning Extreme Programming. Addison Wesley, 2001.
  2. T. Sedano, P. Ralph, C. Peraire, “The Product Backlog,” in International Conference on Software Engineering, IEEE Computer Society, Montreal, Canada, 2019, pp. 200-211. https://doi.org/10.1109/ICSE.2019.00036
  3. C. A. Dos Santos, K. Bouchard, F. Petrillo, “AI-Driven User Story Generation,” in International Conference on Artificial Intelligence, Computer, Data Sciences, and Applications (ACDSA), Victoria, Seychelles, 2024. https://doi.org/10.1109/ACDSA59508.2024.10467677
  4. K. Kaur and P. Kaur, “The application of AI techniques in requirements classification: a systematic mapping,” Artificial Intelligence Review., vol. 57(3), pp. 1-48, 2024. https://doi.org/10.1007/S10462-023-10667-1
  5. S. Arulmohan, M. J. Meurs, S. Mosser, “Extracting Domain Models from Textual Requirements in the Era of Large Language Models,” in ACM/IEEE International Conference on Model Driven Engineering Languages and Systems Companion (MODELS-C), Suecia, 2023, pp. 580-587. https://doi.org/10.1109/MODELS-C59198.2023.00096
  6. Z. Zhang, M. Rayhan, T. Herda, M. Goisauf, P. Abrahamsson, “LLM-Based Agents for Automating the Enhancement of User Story Quality: An Early Report,” in Agile Processes in Software Engineering and Extreme Programming, Germany, 2024, pp. 117-126. https://doi.org/10.1007/978-3-031-61154-4_8
  7. T. Rahman, Y. Zhu, “Automated User Story Generation with Test Case Specification Using Large Language Model,” in Arxiv-Software Engineering, 2024. https://arxiv.org/abs/2404.01558v1
  8. P. Chuor, A. Ittoo, S. Heng, “User Story Classification with Machine Learning and LLMs,” in Lecture Notes in Computer Science. Berlin, Germany: Springer Science and Business Media, 2024, pp. 161-175. https://doi.org/10.1007/978-981-97-5492-2_13
  9. J. Hong et al., “Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression,” in Arxiv-Computation and Language, 2024. https://arxiv.org/abs/2403.15447v3
  10. L. Sun et al., “TrustLLM: Trustworthiness in Large Language Models,” Arxiv-Computation and Language, 2024. https://arxiv.org/abs/2401.05561v4
  11. B. Kumar, U. K. Tiwari, D. C. Dobhal, “Classification of NFR based Importance Level of User Story in Agile Software Development”, in 9th International Conference on Signal Processing, Communications and Computing, India, 2023, pp. 264-268. https://ieeexplore.ieee.org/document/10441284
  12. J. Liu et al., “Rainier: Reinforced Knowledge Introspector for Commonsense Question Answering,” in Conference on Empirical Methods in Natural Language Processing, Abu Dhabi, United Arab Emirates, 2022, pp. 8938-8958. https://doi.org/10.18653/v1/2022.emnlp-main.611
  13. F. Dalpiaz, “Requirements data sets (user stories)”, Mendeley Data, vol. 1, e8, 2018. https://doi.org/10.17632/7ZBK8ZSD8Y.1

Descargas

Los datos de descargas todavía no están disponibles.

Artículos similares

1 2 > >> 

También puede {advancedSearchLink} para este artículo.