El condicionamiento operante es un proceso de aprendizaje en el que se adquieren y modifican nuevos comportamientos a través de su asociación con consecuencias. Reforzar un comportamiento aumenta la probabilidad de que vuelva a ocurrir en el futuro, mientras que castigar un comportamiento disminuye la probabilidad de que se repita.
En el condicionamiento operante, los programas de refuerzo son un componente importante del proceso de aprendizaje. Cuándo y con qué frecuencia reforzamos un comportamiento puede tener un impacto dramático en la fuerza y el ritmo de la respuesta.
Programa de Refuerzo
Un programa de refuerzo es básicamente una regla que establece qué instancias de comportamiento se reforzarán. En algunos casos, un comportamiento puede reforzarse cada vez que ocurre. A veces, es posible que un comportamiento no se refuerce en absoluto.
Los programas de refuerzo tienen lugar tanto en situaciones de aprendizaje que ocurren naturalmente como en situaciones de entrenamiento más estructuradas. En entornos del mundo real, es probable que los comportamientos no se refuercen cada vez que ocurren. En situaciones en las que intencionalmente intenta reforzar una acción específica (como en la escuela, los deportes o el entrenamiento de animales), debe seguir un programa de refuerzo específico.
Algunos horarios se adaptan mejor a ciertos tipos de situaciones de entrenamiento. En algunos casos, el entrenamiento puede requerir un horario y luego cambiar a otro una vez que se haya enseñado el comportamiento deseado.
Tipos de programas de refuerzo
Las dos formas fundamentales de programas de refuerzo se denominan refuerzo continuo y refuerzo parcial.
Refuerzo Continuo
En el reforzamiento continuo, el comportamiento deseado se refuerza cada vez que ocurre. Este programa se utiliza mejor durante las etapas iniciales de aprendizaje para crear una fuerte asociación entre el comportamiento y la respuesta.
Imagina, por ejemplo, que estás tratando de enseñarle a un perro a darte la mano. Durante las etapas iniciales de aprendizaje, se apegaría a un programa de refuerzo continuo para enseñar y establecer el comportamiento. Esto podría implicar agarrar la pata del perro, sacudirla, decir «sacudir» y luego ofrecer una recompensa cada vez que realice estos pasos. Eventualmente, el perro comenzará a realizar la acción por su cuenta.
Los programas de refuerzo continuo son más efectivos cuando se trata de enseñar un nuevo comportamiento. Denota un patrón en el que cada respuesta estrictamente definida es seguida por una consecuencia estrictamente definida.
Refuerzo Parcial
Una vez que la respuesta está firmemente establecida, un programa de refuerzo continuo generalmente se cambia a un programa de refuerzo parcial.En el reforzamiento parcial (o intermitente), la respuesta se refuerza solo una parte del tiempo. Las conductas aprendidas se adquieren más lentamente con refuerzo parcial, pero la respuesta es más resistente a la extinción.
Piense en el ejemplo anterior en el que estaba entrenando a un perro para sacudir y. Si bien inicialmente usó el refuerzo continuo, reforzar el comportamiento cada vez es simplemente poco realista. Con el tiempo, cambiará a un horario parcial para proporcionar un refuerzo adicional una vez que se haya establecido el comportamiento o después de que haya pasado un tiempo considerable.
Hay cuatro programas de refuerzo parcial:
Horarios de razón fija
Horarios de razón fija son aquellos en los que una respuesta se refuerza sólo después de un número determinado de respuestas. Este programa produce una tasa de respuesta alta y constante con solo una breve pausa después de la entrega del reforzador. Un ejemplo de un programa de proporción fija sería entregar una bolita de comida a una rata después de que presione una barra cinco veces.
Horarios de razón variable
Horarios de razón variable Ocurren cuando una respuesta se refuerza después de un número impredecible de respuestas. Este horario crea una alta tasa constante de respuesta. Los juegos de azar y lotería son buenos ejemplos de una recompensa basada en un programa de proporción variable. En un entorno de laboratorio, esto podría implicar entregar gránulos de comida a una rata después de presionar una barra, nuevamente después de presionar cuatro barras y luego nuevamente después de presionar dos barras.
Horarios de intervalo fijo
Los programas de intervalo fijo son aquellos en los que la primera respuesta se recompensa solo después de que haya transcurrido una cantidad de tiempo específica. Este programa provoca una gran cantidad de respuestas cerca del final del intervalo, pero una respuesta más lenta inmediatamente después de la entrega del reforzador. Un ejemplo de esto en un entorno de laboratorio sería reforzar a una rata con una bolita de laboratorio para presionar la primera barra después de que haya transcurrido un intervalo de 30 segundos.
Horarios de intervalo variable
Los programas de intervalo variable ocurren cuando una respuesta es recompensada después de que ha pasado una cantidad de tiempo impredecible. Este programa produce una tasa de respuesta lenta y constante.
Un ejemplo de esto sería entregar una bolita de comida a una rata después de presionar la primera barra después de un intervalo de un minuto; una segunda pastilla para la primera respuesta después de un intervalo de cinco minutos; y un tercer perdigón para la primera respuesta después de un intervalo de tres minutos.
Usando el Horario Apropiado
Decidir cuándo reforzar un comportamiento puede depender de una serie de factores. En los casos en los que está tratando específicamente de enseñar un nuevo comportamiento, un programa continuo suele ser una buena opción. Una vez que se ha aprendido el comportamiento, a menudo es preferible cambiar a un horario parcial.
En la vida diaria, los programas parciales de reforzamiento ocurren con mucha más frecuencia que los continuos. Por ejemplo, imagina si recibieras una recompensa cada vez que llegaste a tiempo al trabajo. Con el tiempo, en lugar de que la recompensa sea un refuerzo positivo, la negación de la recompensa podría considerarse como un refuerzo negativo.
En cambio, recompensas como estas generalmente se distribuyen en un programa de refuerzo parcial mucho menos predecible. Estos no solo son mucho más realistas, sino que también tienden a producir tasas de respuesta más altas y son menos susceptibles a la extinción.
Los horarios parciales reducen el riesgo de saciedad una vez que se ha establecido un comportamiento. Si se da una recompensa sin fin, el sujeto puede dejar de realizar el comportamiento si ya no desea o necesita la recompensa.
Por ejemplo, imagina que estás tratando de enseñarle a un perro a sentarse. Si usa la comida como recompensa cada vez, el perro podría dejar de actuar una vez que esté lleno. En tales casos, algo como el elogio o la atención pueden ser más efectivos para reforzar un comportamiento ya establecido.
Una palabra de Psyathome
El condicionamiento operante puede ser una poderosa herramienta de aprendizaje. El programa de refuerzo utilizado durante el proceso de entrenamiento y mantenimiento puede tener una gran influencia en la rapidez con la que se adquiere un comportamiento, la fuerza de la respuesta y la frecuencia con la que se muestra el comportamiento.
Para determinar qué horario es preferible, debe considerar diferentes aspectos de la situación, incluido el tipo de comportamiento que se está enseñando y el tipo de respuesta que se desea.