Ballesteros, S. - Condicionamiento operante



El Condicionamiento Operante (CO) puede explicar el aprendizaje de respuestas diferentes de las respuestas reflejas innatas. Se llama CO porque es el organismo el que opera a través de su conducta sobre el medio.

La  Caja de Problemas de Thorndike
Thordinke fue el primero en intentar demostrar cómo se aprendían nuevas respuestas.
La caja de problemas estaba cerrada, pero la puerta podía abrirse si el animal que estaba dentro accionaba un pestillo situado dentro de la caja.
Trabajó fundamentalmente con gatos. Colocaba uno de esos animales dentro de la caja. Se encontraban en una situación de privación (hambrientos). Fuera de la caja colocaba una ración de comida. El animal tenía que accionara la palanca para que la puerta se abriera y de esta manera poder obtener comida.
Finalmente por ensayo y error una de las conductas soluciona el problema.

La Ley del Efecto de Thorndike
Se centró en la hipótesis de que la probabilidad futura de una conducta depende del efecto, o de las consecuencias de dicha conducta, lo que denominó la ley del efecto (los efectos positivos de un comportamiento hacen que aumente su probabilidad de ocurrencia en situaciones similares).
Cuando la respuesta tiene efecto positivo para el individuo se produce el aprendizaje. Caso contrario la conducta se debilita.

Críticas o problemas de la Ley del Efecto:
-El hecho de explicar el reforzamiento por la satisfacción llevó a la necesidad de tener que explicar qué es la satisfacción. Este planteo fue rechazado por serinaccesible a la observación pública.
-La Ley daba una explicación circular de los hechos. Explicaba que una conducta se realiza para la obtención de un refuerzo, pero al mismo tiempo el refuerzo se explica como algo que hace que la conducta aumente su probabilidad de ocurrencia.

La Caja de Skinner
La caja de Skinner es una caja cerrada que tiene una palanca en su interior. El animal debe pulsar esta palanca para poder obtener comida de un alimentador. En el exterior hay un dispensador que suelta la comida cada vez que el animal aprieta la palanca. El animal debía estar en estado de privación. Todas las veces que el animal aprieta la palanca por azar, obtiene alimento. Cuando esto ha ocurrido un número suficiente de veces, se puede observar que el animal ha sido condicionado a apretar la palanca ara obtener comida.

El paradigma basico del CO: es E-R
E: estimulo discriminativo
R: la respuesta del sujeto
Hay que aclarar que lo que hace que ocurra la respuesta no es el vinculo entre estimulo y la respuesta, sino entre la R y sus consecuencias.
El estímulo solo indica que, en caso de que se produzca la R, el refuerzo está disponible.

Las variables del CO
Estímulo discriminativo (ED): es un estímulo que hace que se desencadene la acción ya que indica si está o no disponible el refuerzo (luz, o sonido) Es fundamentalm,ente informativo, en ningún caso elicita directamente la respuesta.
Respuesta (R): es una conducta que emite el sujeto de manera espontánea y no depende de la presencia de ningún estímulo para su ocurrencia. Es voluntaria. Las respuestas operantes pueden aprenderse en secuencia o cadena de comportamientos.
Refuerzo: es todo lo que aumenta la frecuencia de la respuesta a la que sigue.
Existen reforzadores positivos y negativos. Ambos hacen que aumente la probabilidad de ocurrencia de la respuesta. El refuerzo positivo presenta un estímulo positivo (algo apetitivo) después de que el individuo haya emitido la respuesta previamente definida. El reforzador negativo reduce o elimina un estímulo desagradable o negativo para el individuo (te duele la muela, vas al dentista). Los reforzadores se dividen también en primarios y secundarios. Un reforzador primario produce agrado de manera innata (comida). Y uno secundario produce agrado porque se ha aprendido previamente (dinero).

Medidas de respuesta del CO
La latencia: tiempo que transcurre desde que el sujeto se encuentra en la situación de poder realizar ala conducta hasta que emite la respuesta.
La tasa de respuestas: el número de respuestas emitidas por el animal por unidad de tiempo.

Modelos del CO
Condicionamiento de recompensa: cuando una conducta determinada va seguida de un reforzador positivo.
El castigo: cuando un estímulo aversivo sigue a la respuesta haciendo que disminuya su probabilidad de ocurrencia.
La omisión: cuando la conducta del sujeto hace que desaparezca el reforzador positivo que estaba en el ambiente. (no comés la comida, te quedás sin postre)
La evitación y el escape: llamamos evitación cuando la respuesta del sujeto hace que no aparezca un estímulo aversivo (saltar, para evitar una descarga eléctrica). Escape cuando la respuesta del sujeto elimina un evento aversivo que está en el ambiente (abrir el paraguas cuando llueve).

Programas de Razón fija y variable y los de Intervalo Fijo y Variable
Programa de razón fija: los individuos reciben su premio o castigo después de realizar un número exacto de respuestas no reforzadas.
Programa de razón variable: los individuos reciben el refuerzo después de un número variable de respuestas que no han sido reforzadas, pero siempre alrededor de una media de respuestas (es el más frecuente en la vida cotidiana).
Programa de intervalo fijo: el sujeto recibe el refuerzo cuando emite una respuesta después de un intervalo determinado de tiempo. El intervalo es siempre el mismo (cuando se paga el sueldo, intervalo cada 30 días).
Programa de intervalo variable: el intervalo que transcurre no es siempre el mismo, sino sería alrededor de una media (cuando no te pagan el mismo día).

La extinción
Es la ruptura de la conexión existente entre una respuesta y el refuerzo.
Cuanto mayor es el refuerzo, más difícil resulta extinguir la respuesta.

No hay comentarios:

Publicar un comentario