Modello linguistico di grandi dimensioni

Un modello linguistico di grandi dimensioni (anche modello linguistico ampio o modello linguistico grande),^[1] noto anche con l'inglese large language model (in sigla LLM) è un tipo di modello linguistico notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell'addestramento e consumando grandi risorse di calcolo nell'operatività. L'aggettivo "grande" presente nel nome si riferisce alla grande quantità di parametri del modello probabilistico (nell'ordine dei miliardi).^[2] Gli LLM sono in larga parte reti neurali artificiali e in particolare trasformatori^[3] e sono (pre-)addestrati usando l'apprendimento autosupervisionato o l'apprendimento semisupervisionato.

In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi.^[4] Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Invece, per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (detto prompt, "spunto"), con un processo di ingegnerizzazione dello stesso chiamato appunto in inglese prompt engineering.^[5] Si pensa che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e della "ontologia" intrinseche nei corpi linguistici usati nell'addestramento, ma al contempo imprecisioni o pregiudizi eventualmente presenti negli stessi testi.^[6] Le principali sfide attuali di questi grandi modelli comprendono, tra le altre cose, errori fattuali,^[7] pregiudizi linguistici,^[8] pregiudizi di genere,^[9] pregiudizi razziali^[10] e pregiudizi politici.^[11]

Esempi noti di modelli linguistici grandi sono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic.

^ Modello linguistico di grandi dimensioni, in Treccani.it – Vocabolario Treccani on line, Roma, Istituto dell'Enciclopedia Italiana.
^ Better Language Models and Their Implications, su openai.com, 14 febbraio 2019. URL consultato il 25 agosto 2019 (archiviato dall'url originale il 19 dicembre 2020).
^ (EN) Rick Merritt, What Is a Transformer Model?, su NVIDIA Blog, 25 marzo 2022. URL consultato il 25 luglio 2023.
^ Samuel R. Bowman, Eight Things to Know about Large Language Models.
^ Tom B. Brown et al., Language Models are Few-Shot Learners (PDF), in Advances in Neural Information Processing Systems, vol. 33, Curran Associates, Inc., dicembre 2020, pp. 1877–1901.
^ Christopher D. Manning, Human Language Understanding & Reasoning, in Daedalus, vol. 151, n. 2, 2022, pp. 127–138, DOI:10.1162/daed_a_01905.
^ Jan Kocoń, Igor Cichecki e Oliwier Kaszyca, ChatGPT: Jack of all trades, master of none, in Information Fusion, vol. 99, 1º novembre 2023, pp. 101861, DOI:10.1016/j.inffus.2023.101861. URL consultato il 25 dicembre 2023.
^ Queenie Luo, Michael J. Puett e Michael D. Smith, A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube, in arXiv.
^ Hadas Kotek, Rikker Dockum e David Sun, Gender bias and stereotypes in Large Language Models, in Proceedings of The ACM Collective Intelligence Conference, Association for Computing Machinery, 5 novembre 2023, pp. 12–24, DOI:10.1145/3582269.3615599. URL consultato il 25 dicembre 2023.
^ Thomas Davidson, Debasmita Bhattacharya e Ingmar Weber, Racial Bias in Hate Speech and Abusive Language Detection Datasets, in Sarah T. Roberts, Joel Tetreault, Vinodkumar Prabhakaran, Zeerak Waseem (a cura di), Proceedings of the Third Workshop on Abusive Language Online, Association for Computational Linguistics, 2019-08, pp. 25–35, DOI:10.18653/v1/W19-3504. URL consultato il 25 dicembre 2023.
^ Karen Zhou e Chenhao Tan, Entity-Based Evaluation of Political Bias in Automatic Summarization, in Houda Bouamor, Juan Pino, Kalika Bali (a cura di), Findings of the Association for Computational Linguistics: EMNLP 2023, Association for Computational Linguistics, 2023-12, pp. 10374–10386, DOI:10.18653/v1/2023.findings-emnlp.696. URL consultato il 25 dicembre 2023.

[1] Modello linguistico di grandi dimensioni, in Treccani.it – Vocabolario Treccani on line, Roma, Istituto dell'Enciclopedia Italiana.

[:7-2] Better Language Models and Their Implications, su openai.com, 14 febbraio 2019. URL consultato il 25 agosto 2019 (archiviato dall'url originale il 19 dicembre 2020).

[3] (EN) Rick Merritt, What Is a Transformer Model?, su NVIDIA Blog, 25 marzo 2022. URL consultato il 25 luglio 2023.

[Bowman-4] Samuel R. Bowman, Eight Things to Know about Large Language Models.

[few-shot-learners-5] Tom B. Brown et al., Language Models are Few-Shot Learners (PDF), in Advances in Neural Information Processing Systems, vol. 33, Curran Associates, Inc., dicembre 2020, pp. 1877–1901.

[Manning-2022-6] Christopher D. Manning, Human Language Understanding & Reasoning, in Daedalus, vol. 151, n. 2, 2022, pp. 127–138, DOI:10.1162/daed_a_01905.

[7] Jan Kocoń, Igor Cichecki e Oliwier Kaszyca, ChatGPT: Jack of all trades, master of none, in Information Fusion, vol. 99, 1º novembre 2023, pp. 101861, DOI:10.1016/j.inffus.2023.101861. URL consultato il 25 dicembre 2023.

[:0-8] Queenie Luo, Michael J. Puett e Michael D. Smith, A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube, in arXiv.

[:1-9] Hadas Kotek, Rikker Dockum e David Sun, Gender bias and stereotypes in Large Language Models, in Proceedings of The ACM Collective Intelligence Conference, Association for Computing Machinery, 5 novembre 2023, pp. 12–24, DOI:10.1145/3582269.3615599. URL consultato il 25 dicembre 2023.

[10] Thomas Davidson, Debasmita Bhattacharya e Ingmar Weber, Racial Bias in Hate Speech and Abusive Language Detection Datasets, in Sarah T. Roberts, Joel Tetreault, Vinodkumar Prabhakaran, Zeerak Waseem (a cura di), Proceedings of the Third Workshop on Abusive Language Online, Association for Computational Linguistics, 2019-08, pp. 25–35, DOI:10.18653/v1/W19-3504. URL consultato il 25 dicembre 2023.

[:2-11] Karen Zhou e Chenhao Tan, Entity-Based Evaluation of Political Bias in Automatic Summarization, in Houda Bouamor, Juan Pino, Kalika Bali (a cura di), Findings of the Association for Computational Linguistics: EMNLP 2023, Association for Computational Linguistics, 2023-12, pp. 10374–10386, DOI:10.18653/v1/2023.findings-emnlp.696. URL consultato il 25 dicembre 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]