Ein theoretischer Integrationsversuch

(29. Dezember 1996)

Zweites Kapitel: Die komplexe Mehrebenenstruktur kollokaler Interaktion

Drittes Kapitel: "Sinnliche Wahrnehmung" als Medium systemischer Ausdifferenzierung und Integration

Viertes Kapitel: Eigendeterminiertheit der Interaktionsprozesse als Substitut für Subjektivationen und Objektivationen

Fünftes Kapitel: Prinzipien der Strukturbildung und sozialen Gesamtordnung kollokaler Systeme

Literaturliste

ZWEITES KAPITEL:

DIE KOMPLEXE MEHREBENENSTRUKTUR KOLLOKALER INTERAKTIONEN

2.2 Vier komplementäre Ebenen sinnhafter Kommunikation

2.2.1 Zur Hierarchie der vier Kommunikationsebenen

Nichts wäre verfehlter als das reduktionistische Vorurteil, dass man bei der Analyse kollokaler Sozialbeziehungen gewissermassen auf die einfachsten Elementarbausteine der sozialen Welt stossen könnte, aus deren Kombinationen und Abwandlungen dann alle die komplexeren Erscheinungen (Gruppen, Organisationen, Institutionen, Gesellschaften) konstruierbar seien. Vielmehr findet man gerade in dieser urtümlichsten und alltäglichsten, universellsten und voraussetzungslosesten Sphäre menschlicher Sozialität besonders vielschichtige strukturelle Aufbauprinzipien vor: weil die verschiedenen Ebenen physischer, senso-motorischer, sinnhafter und sprachlicher Wechselwirkungen weniger als anderswo voneinander ausdifferenziert und verselbständigt sind, sondern sich auf diffuse Weise wechselseitig durchdringen.

Konkret bedeutet dies, dass sich die sinnhaften und kommunikativen Verhältnisse anwesender Personen niemals nur im Austausch intentionaler Handlungen oder Sprechakte erschöpfen: weil jede in der Lage ist, auch die physische Körperlichkeit, die biologischen Bedürfnisse oder die unwillkürlichen senso-motorischen Verhaltensweisen der anderen sinnhaft zu erleben und sprachlich zu thematisieren. Und weil jeder Teilnehmer weiss, dass dies wechselseitig geschieht, werden alle versuchen, durch selektive Manipulation ihrer rein physischen Kundgaben auf ihre Partner gewisse Wirkungen zu erzielen und ihnen bestimmte Mitteilungen zukommen zu lassen, welche die Kommunikationen auf höheren Ebenen teils unterstützen, teils abschwächen oder gar konterkarieren.

Charakteristisch für Kollokalität ist deshalb, dass gleichzeitig mehrere, völlig verschiedenartige Trägermedien für teils intentional gesendete, teils unabsichtlich emittierte, immer aber sinnhaft dekodierbare Kundgaben zur Verfügung stehen. Im Sinne der vorhin (vgl. 2.1) explizierten theoretischen Prinzipien ist ihr Verhältnis zueinander derart, dass jedes niedrigere Medium als notwendige Ausgangsbasis für alle "höheren" fungiert, und dass mit zunehmender "Höhe" des benutzten Kanals

immer komplexere und variablere Botschaften gesendet werden können,
die Enkodierungs- und Dekodierungsprozesse besser kontrollierbar und intentional gestaltbar werden,
die "Temporalisierung" zunimmt: so dass Übermittlungsprozesse mehr Zeit beanspruchen und dem Selektivitätsdruck der Zeitknappheit unterliegen.

Im Minimum ist es notwendig, die folgenden vier Niveaus sinnhaften Ausdruckhandelns und Erlebens voneinander zu unterscheiden, die für den soziologischen Beobachter in Termini relativ objektiver Unterscheidungsmerkmale identifizierbar sind und aus demselben Grund auch von den sozialen Akteuren selbst als voneinander differenzierte Ebenen interpersoneller Erfahrung wahrgenommen werden:

"Anwesenheit": Das wechselseitig evidente Faktum des räumlichen Hierseins einer Person in ihrer physischen Körperlichkeit ist der generellste, fundamentalste Ausgangspunkt für alle spezifischere interpersonelle Erfahrung, Interaktion oder Kommunikation. Als undifferenziertestes individuelles "Basisverhalten" ist der Ausdruckswert schieren Anwesendseins normalerweise derart gering, dass der "subjektive Sinn", den der Anwesende damit verbindet, meist nur in einem grösseren Horizont von Situationsbedingungen und Verhaltenserwartungen. erschlossen werden kann.
"Persönliche Erscheinung": Sie umfasst alle an der physischen Körperlichkeit festgemachten, zumindest im aktuellen Interaktionskontext relativ invarianten Merkmale (Hautfarbe, Geschlecht, Gesichtszüge, Haltung, Frisur, Kleidung u.a.), mit denen ein Individuum den Mitanwesenden ein teils absichtlich manipuliertes, teils nicht manipulierbares Simultanbild seiner Persönlichkeit vermittelt. Setzt sie einerseits "Anwesenheit" voraus, so fungiert sie selber wieder als der Boden, aus dem alle variableren Kundgaben (Gestik, Sprechakte) herauswachsen und ihre spezifische Deutung gewinnen.
"Gestik": bildet den zusammenfassenden Ausdruck für alle variablen Verhaltenskundgaben, wie sie einerseits bei intentionalen Akten nichtverbaler Kommunikation, andererseits aber genauso als unbeabsichtigte Begleiterscheinungen senso-motorischer Abläufe oder Handlungsvorgänge auftreten und dank ihrer objektiven Wahrnehmbarkeit als Symptome für innere Gefühlszustände, Motivationen, Fähigkeiten oder Absichten eines andern Subjekts fungieren.
"Sprache": umfasst die Gesamtheit akustischer Äusserungen, die im Medium eines konventionellen Codes der Laut-, Wort- und Satzbildung enkodiert sind und durch Benutzung desselben Codes dekodiert werden müssen. Es ist die Kommunikationsebene mit der höchsten Kapazität für intentionale Steuerung und mit dem grössten Reichtum an inhaltlichen Spezifizierungen, aber andererseits auch mit den restriktivsten Anforderungen an sachliche Selektivität, soziale Kontrolle und zeitliche Sequentialisierung.

In der Terminologie von Ruesch/Kees wären "Anwesenheit" und "persönliche Erscheinung" dem Niveau der "object language" (zu der auch Wohnungseinrichtungen, Schmuckstücke und andere Ausdrucksgegenstände gehören) zuzurechnen, während der Begriff der "Gestik" weit genug gespannt sein soll, um alle mit dem Konzept der "action language" bezeichneten kommunikativen Verhaltensäusserungen zu umfassen. Die verbale Kommunikationsebene schliesslich koinzidiert mit dem Niveau der "sign language", die alle durch konventionell festgelegte Symbole konstituierten Sinnbedeutungen umfasst (vgl. Ruesch/Kees 1956; Kendon 1981: 5gff).

Vom kollokalen Sozialsystem aus gesehen bilden die beiden unteren Ebenen ("Anwesenheit" und "äussere Erscheinung") dank ihrer geringen Variabilität und Differenzierbarkeit in erster Linie Quellen systemischer Integration und Grundlagen struktureller Stabilisierung. Die beiden "höheren" Ebenen dagegen sind genau konträr dazu Quellen der Differenzierung und der prozessualen Dynamik, mit deren Hilfe sich das Sozialsystem zur Umwelt hin öffnen und seine inneren Zustände in dauernder Bewegung halten kann. Diese potenzierte Spannweite zwischen stabilen und labilen, strukturellen und prozessualen, integrativen und adaptiven Systemkomponenten ist wahrscheinlich der entscheidende Vorzug kollokaler Sozialsysteme, aus dem sich ihr universelles Vorkommen und ihre funktionale Unentbehrlichkeit (selbst in ausgeprägt alokalen oder translokalen Systembildungen (vgl. Kap. 1) erklärt.

2.2.2. "Anwesenheit"

Viele soziale Systeme stützen sich auf irgendein materielles Trägermedium ab, um zumindest ihrer Existenz, meist aber auch ihrer Reichweite und besonderen Identität, einen objektiv sichtbaren, für Mitglieder und Aussenstehende gleichermassen evidenten Ausdruck zu verleihen.

So erhalten Staaten durch ihr Territorium, Kirchen durch ihre Gotteshäuser, Städte durch ihre architektonische "sky line", Familienhaushalte durch ihr Eigenheim, transitorische "Miteinanders" durch gemeinsam in Beschlag genommene Tische, Bänke u.a. ihre Verankerung in der physischen Welt: also durch Inanspruchnahme materieller Substrate, die praktisch voraussetzungslos (d.h. ohne besondere Qualifikationen und Aktivitäten seitens der Emittenten und Rezipienten) wahrnehmbar sind, im Zeitablauf invariant bleiben und unabhängig vom Wechsel der beteiligten Personen und von Wandlungen sozialer Strukturen und kultureller Muster dieselbe Bedeutung und Integrationskraft beibehalten (vgl. z.B. Simmel, 1908a: 474).

Mit diesem Höchstmass an zeitlicher, sozialer und sachlicher Generalisierung unterscheiden sich physische Substrate von symbolischen Trägermedien, die immer nur in Termini spezifischer Inhalte konstituiert sind und die Identität des Sozialsystems deshalb untrennbar an die Aufrechterhaltung besonderer Fixierungen (Normen, Zielsetzungen, Wertorientierungen u.a.) binden.

Beispiele dafür wären Schriftdokumente (Verfassungen, Statuten, "charters" u.a.), durch die formale Organisationen eine von physischen Bindungen zwar unabhängige, dafür aber inhaltlich festgelegte und den strukturellen und kulturellen Variationsspielraum einengende Identität zugewiesen erhalten, oder konsensuale subjektive Identifikationen (z.B. über gemeinsame Zugehörigkeit zu politischen Gesinnungsgruppen, Nationalitäten, Klassen, sozialen Bewegungen u.a.) die immer von labilen innerpsychischen Vorgängen abhängig bleiben. Dementsprechend sind vor allem jene Sozialsysteme auf physische Substrate als Garanten ihrer Identität angewiesen, die infolge hoher Fluktuationen und Unberechenbarkeiten ihrer Umwelten und/oder Binnenverhältnisse gezwungen sind, ihre Existenz auf einer von konkreten Werten, Zwecken, Handlungsweisen oder Organisationsformen unabhängigen Grundlage festzumachen: z.B. stationäre Lebensgemeinschaften oder Siedlungsagglomerate (Dörfer und Städte), denen die Dauerhaftigkeit und sinnliche Prägnanz ihrer architektonischen Strukturen dazu verhilft, ihre Identität über beliebig wechselnde Mitgliederzusammensetzungen, Zwecksetzungen, Interaktionsprozesse, Konfliktsituationen oder politische Machtverhältnisse hinweg aufrechtzuerhalten.

Die folgenreiche Besonderheit kollokaler Sozialsysteme besteht nun darin, dass sie konkrete, körperlich anwesende menschliche Personen als ihr basales physisches Trägermedium benutzen: so dass sie einerseits von andern physischen Medien (Territorien, Gebäuden u.a.) und andererseits von symbolisch-kulturellen Identitätsträgern (Zielsetzungen, Ideologien u.a.) relativ unabhängig werden.

Zwar trifft es nicht nur manchmal, sondern im typischen Normalfalle zu, dass "Anwesenheit" mit andern konstituierenden Medien sozialer Zugehörigkeit koinzidiert: z.B. wenn formale Mitglieder derselben Organisation im vorbestimmten Büroraum miteinander regelmässig kooperieren, Familienmitglieder am gemeinsamen Wohnsitz miteinander interagieren, oder wenn sich freiwillige Anhänger einer sozialen Bewegung zur gemeinsamen Kundgebung treffen. In allen diesen Fällen aber gilt, dass das wechselseitig konstatierte Faktum, physisch im selben Raum anwesend und deshalb kommunikativ erreichbar zu sein, als notwendige Ausgangsbasis für jeder kollokale Systembildung fungiert, oder vielleicht besser: dass erst dadurch jene niedrigste, undifferenzierteste, evidenteste, konsensualste und generellste Ebene der Assoziierung konstituiert ist, an der selektivere und variablere Sozialbeziehungen erst anknüpfen können.

Auf Grund der Tatsache, dass auch menschliche Personen physische Objekte sind, sind einige funktionale Korrelate von "Anwesenheit" durchaus mit den Eigenschaften anderer physischer Substrate der sozialen Systembildung identisch:

Erstens bildet das körperliche Hiersein ein Faktum von unübertrefflicher Objektivität: Alle Beteiligten können praktisch voraussetzungsfrei und völlig evidenterweise zum gemeinsamen Schluss gelangen, dass sie selbst und die andern anwesend sind, und alle wissen zweifelsfrei, dass alle anderen dies zweifelsfrei wissen.

Zweitens sind alle Individuen unter dem Gesichtspunkt ihrer Anwesenheit betrachtet auf fundamentale Weise gleich, denn jeder Mensch ist allein dadurch, dass er existiert, mit einer Vielzahl von identischen physikalischen und biologischen Körpereigenschaften ausgestattet und trägt diese Körperlichkeit als sein invariantestes, unmanipulierbarstes, nur durch seinen Tod eliminierbares Merkmal mit sich herum. Trotz kontinuierlicher Variabilität räumlicher Distanzen findet auf "natürliche" Weise eine relativ scharfe taxonomische Differenzierung der Menschheit in "Anwesende" und in "Abwesende" statt: eine Dichotomisierung, die z.B. von formalen Organisationen mit ihrer Unterscheidung zwischen "Mitgliedern" und "Nicht-Mitgliedern" auf viel anspruchsvollere Weise artifiziell hergestellt und mit Hilfe spezieller Arrangements (Eintrittsprozeduren, Registrationen u.a.) aufrechterhalten werden muss. Im gemeinsamen Gegensatz dazu stehen all jene nicht-kollokalen informellen Kollektive, die variable Ausprägungen subjektiv empfundener und intersubjektiv anerkannter "Zugehörigkeit" erlauben (Gesinnungsgruppen, soziale Schichten, Parteisympathisanten u.s.w.) zulassen und dementsprechend nicht in der Lage sind, ihre Grenzen autonom zu definieren.

Drittens stellt "Anwesenheit" stellt eine für sich ausdifferenzierbare, völlig inhaltsfrei konstituierte Rahmenbedingung für soziale Interaktion und Strukturbildung dar, dank der Kollokalsysteme eine jenseits aller spezifischen Themen, Zielsetzungen, Aktivitäten u.a. stabilisierbare, "infrastrukturelle" Integrationsbasis erhalten. Daraus beziehen sie eine potentiell unbegrenzte, z.B. in Beziehungen lebenslanger Partnerschaft oder Hausgemeinschaft arg strapazierte Elastizität.
Demgegenüber sind translokale Beziehungen (z.B. via Telephon oder Briefwechsel) dadurch ausgezeichnet sind, dass sie ohne diese generalisierte Basisebene immer gleich auf dem Niveau inhaltlich spezifischer symbolischer Kommunikation einsetzen müssen.

Insofern nun aber die physischen Objekte menschliche Personen sind, sind mit "Anwesenheit" als Strukturbildungsprinzip andererseits einige Schranken und Risiken verbunden, die es als universelles Medium der Systemintegration - im Vergleich zu Territorien oder Gebäuden - weniger geeignet machen:

Die soziale Generalisierbarkeit ist gering, weil es häufig nicht substituierbare partikuläre Personen sind, deren Anwesenheit die besondere Identität des jeweiligen Sozialsystems garantiert.
Die zeitliche Generalisierbarkeit ist beschränkt, weil jedes Mitglied durch Wegbleiben oder Weggehen jederzeit die Möglichkeit hat, die Struktur des Sozialsystems zu modifizieren oder gar seine Auflösung herbeizuführen.

Zu einer Quelle der Unsicherheit und Systemgefährdung wird die "Anwesenheit" vor allem in dem Masse, als sie als eine absichtliche Handlung aufgefasst wird, die in einem Horizont verschiedener Alternativen ausgewählt wurde und durch freien Willen diskontinuiert werden kann (bzw. könnte). Genau im selben Masse wird die "Anwesenheit" andererseits aber auch zu einer kommunikativen Kundgabe, die sich zum Ausdruck bestimmter - allerdings diffus bleibender und ungerichtet emittierter - Mitteilungsakte eignet.

Der Handlungscharakter von Anwesenheiten ist nun aber äusserst variabel und kann überdies leicht strittig und unentscheidbar bleiben, weil die selbstreferentiellen Auffassungen des Akteurs mit den Perspektiven seiner Interaktionspartner (und diese wiederum mit den Deutungen externer, z.B. sozialwissenschaftlicher, Beobachter) - keineswegs übereinzustimmen brauchen.

So wird dem Kleinkind der Aufenthalt in seiner Familie kaum als freiwillige, kontingente Handlung zugerechnet werden; und mein zufälliger Kabinengenosse auf der Schiffsreise ist höchstens insofern "freiwillig" in meiner Nähe, als er es unterlassen hat, aus Abneigung gegen mich um eine andere Koje nachzusuchen.

Unstrittigen Handlungscharakter aber haben jene Anwesenheiten, die auf expliziten vorgängigen Vereinbarungen beruhen (Besuche, Rendez-vous, Vertragsgespräche u.a.), und/oder zu deren Zustandekommen besondere Ortsveränderungen (Reisen u.a.) notwendig waren.

Physische Anwesenheit wird rasch zu einem knappen Gut, wenn Individuen wegen vielseitiger sozialer Inanspruchnahmen, Rollenverpflichtungen und Mitgliedschaften genötigt sind, sich simultan oder in rascher Folge an verschiedenen Orten aufzuhalten.

In dem Masse, wie diese Verknappung nicht durch intensivere Lokomotionen (z.B. durch schnelle Autofahrten, Flugreisen u.a.) gemildert werden kann, muss sie durch eine verstärkte Selektivität in der Auswahl der Örtlichkeiten und/oder eine intensivere Ökonomisierung des Zeitbudgets bewältigt werden: so dass räumliche Aufenthalte zunehmend den Charakter intentionaler, kontingenter Entscheidungshandlungen gewinnen.

So müssen moderne Individuen mit wachsender Differenzierung ihres Rollensets immer mehr mit der Tatsache zurechtkommen, dass ihnen sowohl die Orte ihrer An- und Abwesenheit wie die jedem Aufenthalt gewidmeten Zeitspannen als absichtsvolle, häufig gar begründungsbedürftige Handlungen zugerechnet werden.

Das "Anwesenheitsmanagement" wird vor allem für vielbeschäftigte Elitepersonen (bzw. ihre agendaführenden Sekretärinnen) zu einem ständig akuten Problem: aber auch zur permanenten Chance, allein durch den Akt ihres Erscheinens, Nichterscheinens oder Weggehens an bestimmten Orten und zu gewissen Zeiten Ausdruckshandlungen mit klar verständlichem Symbolgehalt zu vollziehen.
So kann ein Generaldirektor allein durch häufiges Herumgehen im Betrieb sein generelles Interesse für die Belegschaft und die konkreten Fabrikationsabläufe so überzeugend bekunden, dass seine spezifischen Aeusserungen während des Umgangs (Fragen, Aufmunterungen, Lobzuweisungen u.a.) vergleichsweise zweitrangig sind; und jeder Minister kann durch die Wahl der von ihm besuchten Verbandstagungen, Messeeröffnungen u.a. politische Bewertungen ausdrücken und Signale setzen, die weitherum verstanden werden. Umgekehrt können "graue Eminenzen" auf den Verlauf formeller Entscheidungsprozesse in dem Masse Einfluss nehmen, als man ihre Abwesenheit als kontingent ansieht und jederzeit damit gerechnet werden muss, dass sie bei einem für sie ungünstigen Verlauf der Dinge "persönlich intervenieren".

In hochdifferenzierten urbanen Gesellschaften wird praktisch jedermann dazu neigen, seine An- und Abwesenheiten nicht nur auf Grund seiner subjektiven Präferenzen, sondern auch unter dem Gesichtspunkt festzulegen, welche kommunikativen Kundgaben darin mitimpliziert sind und wie andere voraussichtlich darauf reagieren.

Jeder Student kann seinem Professor allein durch regelmässigen Besuch der Vorlesung auffälliges Interesse bekunden, weil diese dauernde Anwesenheit angesichts der Vielfalt alternativer Studienbeschäftigungen nicht selbstverständlich ist; durch dauernde Tagespräsenz im Haushalt drückt eine moderne, von Emanzipationsideen durchdrungene Ehefrau unweigerlich aus, dass sie im Interesse ihrer Familie bereit ist, auf eine Berufsarbeit zu verzichten; und jedermann kann durch Pünktlichkeit seine Treffpartner davon überzeugen, dass er die Zusammenkunft für hinreichend wichtig ansieht und dass er über genügend Selbstdisziplin verfügt, um diese Bewertung in seinem Verhalten zum Ausdruck zu bringen.

Der Ausdruckswert von Anwesenheit kann artifiziell gesteigert werden, wenn es gelingt, andere von der Vielfältigkeit konkurrierender Einladungen und Anwesenheitspflichten etc. zu überzeugen: so dass z.B. das Erscheinen zu einer Einladung selbst dann als Kundgabe besonderen Interesses und Wohlwollens für den Gastgeber erscheint, wenn man beim besten Willen nicht wusste, wie man den freien Abend sonst hätte gestalten sollen.

So mögen hochrangige Personen sich zum Teil deshalb als vielbeschäftigt, ja "chronisch überlastet" darstellen, weil dieser Mythos ihnen die willkommene Möglichkeit gibt, nicht nur alle Abwesenheiten zu entschuldigen, sondern jede Anwesenheit als einen höchst selektiven Akt darzustellen, der z.B. einen besonderen Respekt gegenüber einer Person oder ein überdurchschnittliches Interesse für eine Veranstaltung bekundet. Wer nicht durch den anspruchslosen Akt des blossen "Hierseins" in der Lage ist, hinlänglich deutliche und verständliche Mitteilungen auszudrücken, sieht sich stärker damit belastet, die ungleich anstrengenderen Ausdrucksebenen der "persönlichen Erscheinung", des Verhaltens oder des Gesprächs als Trägermedien intentionaler Kundgaben zu benutzen.

Die fundamentale Bedeutung "gemeinsamer Anwesenheit" für die Basisintegration sozialer Systeme entsteht aus der doppelten Tatsache, dass die "Befindlichkeit im selben Raumabschnitt"

eine elementare Basishandlung darstellt, die von allen Individuen mit normaler motorischer Leistungsfähigkeit praktisch voraussetzungslos erbracht werden kann und die zu ihrer Kontinuierung keine besonderen Fähigkeiten oder Anstrengungen erfordert;
ein der physischen Umwelt zugehöriges objektives Faktum darstellt, das vom Subjekt selbst, seinen Partnern und Beobachtern (normale sensorische Leistungsfähigkeit vorausgesetzt) praktisch voraussetzungslos und auf völlig evidente Weise konsensual wahrgenommen werden kann.

Die anspruchslose Erzeugbarkeit (a) des räumlichen Beisammenseins hat zur Folge, dass "gemeinsame Anwesenheit" als höchst unselektives und extensives Medium sozialer Kollektivierung wirksam sein kann: weil sich hier unterschiedlichste Individuen im Vollzug einer völlig identischen "Basishandlung" zusammenfinden, die nur im quantitativen Aspekt ihrer zeitlichen Erstreckung variiert werden kann, sich aber sonst in jeder qualitativen Hinsicht als völlig undifferenzierbar erweist. So können manche sozialen Bewegungen oft nur dadurch eine eindrucksvolle Grösse und innere Geschlossenheit demonstrieren, dass sie die Handlungserfordernisse der Teilnehmer streng auf reine Anwesenheiten (z.B. an Demonstrationen, Sternmärschen, Versammlungen, Mahnwachen u.a.) beschränken. Denn sobald darüber hinaus ein spezifischeres und variableres Verhalten gefordert wird, werden die vielfältigen Unterschiede in der Motivation, Qualifikation und bei normativen Orientierungen oder Zielsetzungen verschiedener Teilnehmer deutlich: so dass das Kollektiv schrumpft, in verschiedene Teile auseinanderbricht oder sich intern in Subgruppen mit unterschiedlichen Zielsetzungen und Aktivitätsformen fragmentiert.

Die anspruchslose Wahrnehmbarkeit (b) gemeinsamer räumlicher Präsenz bedeutet vor allem, dass "Anwesenheitskontrolle" die verbreitetste, weil mit geringstem Aufwand an individueller Aktivität und sozialer Organisation praktizierbare, Form sozialer Kontrolle darstellt, die ganz besonders in den folgenden zwei Fällen in den Vordergrund tritt:

in mangelhaft organisierten, intern wenig differenzierten sozialen Kollektiven: z.B. in informellen sozialen Bewegungen und Gesinnungsgruppen, wo die Tatsache, Häufigkeit und Länge der Anwesenheit (an Veranstaltungen u.a.) als einziges Kriterium für die faktische Zugehörigkeit und für den Intensitätsgrad der Teilnahme fungiert;
in Organisationen, die aus sachlichen Gründen über keine operationalen Massstäbe des Verhaltens oder seiner Ergebnisse verfügen: z.B. in öffentlichen Verwaltungen, wo die Anwesenheitskontrolle als Substitut für Leistungsmessungen oder Erfolgsbewertungen Verwendung findet.

Diese Gewinne an Objektivierbarkeit und Quantifizierbarkeit werden aber dadurch teuer bezahlt, dass sich aus dem undifferenzierbaren Faktum physischer Anwesenheit kaum gültige Schlüsse auf intraindividuelle Merkmale (Motivationen, Qualifikationen, Verhaltensneigungen u.a.) oder auf die Qualität interpersoneller Beziehungen gewinnen lassen. Denn genauso wie die Teilnahme an einer Beerdigungszeremonie nicht als hinreichender Beweis für innige gefühlsmässige Anteilnahme gewertet werden kann, darf aus der überdurchschnittlichen wöchentlichen Aufenthaltsdauer im Amtsbüro nicht zwingend auf eine überragende berufliche Leistungskraft geschlossen werden: und manch regelmässiges Erscheinen an Sitzungen mag allein dadurch motiviert sein, auf möglichst arbeitssparende Weise ein möglichst sichtbares Zeichen von Interesse, Zuverlässigkeit u.a. zu setzen.

Bei länger andauernder gemeinsamer Anwesenheit werden schliesslich zusätzliche Quellen sozialer Systemstabilisierung erschliessbar, die mit den regelhaften, berechenbaren physiologischen Funktionsweisen menschlicher Organismen zusammenhängen.

So braucht man höchstens drei bis vier Stunden in einer kleinen Gruppe zusammenzusitzen, bis die gemeinsame Einnahme einer Mahlzeit zu einem allerseits konsensfähigen, weil durch ununterdrückbare Hungergefühle gestützten, Anliegen wird: ein Unterfangen, über dessen Wünschbarkeit die Partner ungeachtet ihrer übrigen Meinungsdifferenzen und Konflikte in erlösender Gemeinsamkeit der Bedürfnisse miteinander konvergieren, und bei dem sie eine neue Ausgangsplattform für expressive und sozio-emotional motivierte soziale Interaktions- und Verständigungsprozesse (im Medium der "Geselligkeit") finden.

Ähnlich erklärt sich der hohe Routinisierungsgrad der meisten kommunalen Verwaltungstätigkeiten und Dienstleistungen hinreichend aus der einfachen Tatsache, dass mit dem andauernden Zusammenwohnen zahlreicher Einzelpersonen und Familien viele äusserst berechenbare Bedürfnisse und Ansprüche (nach Frischwasserangebot, Elektrizitätsversorgung, Abwasserkanalisation, Schneereinigung u.a.) erwachsen, für deren Erfüllung ebenso stabile, standardisierbare Verfahrensweisen, Organisationsstrukturen und Technologien zur Verfügung stehen.

"Totale Institutionen" wie z.B. geschlossene Anstalten, Schiffsbesatzungen oder Militärgarnisonen zeigen in ihrem Strukturaufbau regelmässig hohe "induzierte Stabilitäten" auf Grund der Tatsache, dass die integral eingebundenen Insassen mit höchster Berechenbarkeit immer dieselben - sich andauernd reproduzierenden - Grundbedürfnisse artikulieren und dadurch auch höchst verlässliche Ansatzpunkte für Strategien der Sanktionierung und Sozialkontrolle bieten (vgl. Goffman, 1973: 54ff.).

Die schwerwiegendsten, gerade unter modernen gesellschaftlichen Verhältnissen immer auffälligeren Leistungsschwächen aller auf dem Prinzip der "Anwesenheit" konstituierten Sozialsysteme entstehen aus der Tatsache, dass Mitgliedschaftsrollen, Statusverhältnisse,, Kooperationsbeziehungen und alle andern Elemente der Binnenstruktur nur dadurch stabil gehalten werden können, dass die Teilnehmer drastische Beschränkungen ihrer räumlichen Mobilität auf sich nehmen. Verständlicherweise wird mit vielerlei Mitteln versucht, den Status "prinzipieller Anwesenheit" wenigstens partiell vom Zustand dauernder physischer Präsenz unabhängig zu machen: indem man stellvertretend für den eigenen Körper symbolische Markierungen verwendet, um Phasen temporärer Abwesenheit zu überbrücken oder um sich gar bei beliebig seltener Anwesenheit immer den Zugang zu einer kollokalen Teilnehmerrolle zu sichern. Am besten scheinen dazu "persönliche Gegenstände" (z.B. Badetücher am Strand, Jacken im Eisenbahnabteil, Handtaschen auf Wartezimmerstühlen) geeignet, die mit der partikulären Persönlichkeit des Besitzers symbolisch derart stark assoziiert werden, dass man den Respekt und die Berührungsscheu, den man seinem Körper gegenüber verspürt, zumindest teilweise auf sie überträgt (Goffman 1974: 71ff.).

Vor allem Individuen in höheren Statusrängen sind auf einen extensiven Gebrauch derartiger Körpersubstitute angewiesen, um ihre vielfältigen Einbindungen in kollokale Interaktionsfelder mit ihren ebenso ausgeprägten Bedürfnissen nach räumlicher Mobilität in Einklang zu bringen. Dies geschieht dadurch, dass sie eine besonders grosse Zahl physischer Gegenstände und Einrichtungen (z.B. Büros, Ferienvillen u.a.) exklusiv mit ihrer "Persönlichkeit" imprägnieren, andererseits aber darüber hinaus auch rein institutionelle Hilfen in Anspruch nehmen, um sich dauernde Zugangschancen (z.B. zum familieneigenen Kirchenstuhl oder zum Stammplatz im bevorzugten Speiserestaurant) zu sichern.

2.2.3 "Persönliche Erscheinung"

In der praktischen interpersonellen Wahrnehmung mag es kaum gelingen, das reine raum-zeitliche "Hiersein" eines Individuums zu verifizieren, ohne gleichzeitig auch verschiedene Aspekte seines besonderen "Soseins" in den Blick zu bekommen (vgl. Schütz, 1974: 182ff).

Dennoch bleibt diese Unterscheidung von höchster analytischer Relevanz, weil alle über die schiere "Anwesenheit" hinausgehenden personellen Attribute und Kundgaben einen ungleich spezifischeren und variableren Charakter haben, und auf Seiten des Emittenten wie des Rezipienten mehr Spielraum für eigenselektive Gestaltung und Deutung offenlassen,

Am wenigsten treffen diese Eigenheiten allerdings auf die relativ invariante Ausdrucksebene der "äusseren Erscheinung" zu, die einerseits am unmittelbarsten auf dem Basisfaktum der "Anwesenheit" ruht, auf der andern Seite aber ihrerseits als Fundament und Deutungsrahmen für alle variableren Äusserungen auf der Ebene der Gestik (2.2.4) oder auf verbalem Niveau (2.2.5) fungiert.

Normalerweise kann ich die Verhaltensäusserungen und Sprechakte eines anwesenden anderen Individuums nicht einmal wahrnehmen, geschweige denn adäquat interpretieren, bevor ich dieses nicht in intuitiver, höchst synthetischer Weise im Medium seiner spezifischen "äusseren Erscheinung" wahrgenommen habe: in den Aspekten seiner körperlichen Verfassung, seiner Bekleidung und Physiognomie, die sich "spontan" (d.h. für mich als Wahrnehmenden unvermeidbar und unkontrollierbar) zu einem komplexen Simultanbild der Gesamtperson und ihrer aktuellen Befindlichkeit zusammenfügen.

Auf ebenso unkontrollierbare Weise wird dieses Bild als äusserliches Korrelat einer - direkt nicht beobachtbaren - persönlichen Charakterstruktur gedeutet, der man ein analoges Mass an Konsistenz, Invarianz und Situationsunabhängigkeit unterstellt.

"Das Gesicht aber... ist das Symbol all dessen, was das Individuum als die Voraussetzung seines Lebens mitgebracht hat, es ist abgelagert, was von seiner Vergangenheit in den Grund seines Lebens hinabgestiegen und zu beharrenden Zügen in ihm geworden ist. Das Gesicht bewirkt, dass schon aus seinem Anblick, nicht erst aus seinem Handeln, verstanden wird. Das Gesicht, als Ausdrucksorgan, betrachtet, ist sozusagen ganz theoretischen Wesens, es handelt nicht, wie die Hand, wie der Fuss, wie der ganze Körper: es trägt nicht das innerliche oder praktische Verhalten des Menschen, sondern es erzählt nur von ihm. In irgendeinem, freilich schwankenden Masse, wissen wir mit dem ersten Blick auf jemanden, mit wem wir es zu tun haben (Simmel 1908b: 485)."

Dieser diffus-holistischen Auffassungsweise steht nun allerdings eine ausgesprochen differenzierte, durch das komplementäre Zusammenwirken mehrerer kommunikativer Ausdrucksebenen gekennzeichnete Konstitutionsweise der "persönlichen Erscheinung" gegenüber.

Nach Massgabe des Kriteriums, wie eng sie mit dem Niveau zugeschriebener biologischer Körpermerkmale einerseits oder dem Niveau intentional manipulierbaren Verhaltens andererseits in Verbindung stehen, müssen mindestens die folgenden vier Ebenen analytisch auseinandergehalten werden:

Auf Grund von Alter, Geschlecht, Hautfarbe und anatomisch bedingten Charakteristika bringt jedes Individuum an alle kollokalen Interaktionsfelder eine invariante Konstellation fundamentalster physischer Eigenschaften mit, die praktisch im selben Wahrnehmungsakt, mit dem man die Anwesenheit der Person registriert, mitaufgefasst werden. Ihre weite Entfernung von der Ebene intentionalen Handelns verdankt diese Ausdrucksebene also der Tatsache, dass der Emittent nicht in der Lage ist, auf das Ob, Wie, Wann und Wo solcher Kundgaben wesentlich Einfluss zu nehmen, und der Rezipient (vor allem bei nichtvisuellen, z.B. akustischen oder olfaktorischen Reizen) genau so wenig Autonomie hat, sich ihrer Wahrnehmung zu entziehen.
Auf der zweiten Ebene finden sich jene ebenfalls im Medium biologischer Körperlichkeit transportierten Eigenschaften, die aber als Ergebnisse vorangegangenen Verhaltens aufgefasst werden können.

In nächster Nähe zur Ebene (1) stehen Merkmale, die auf Grund eines irreversiblen organischen Eingriffs (z.B. einer chirurgischen Operation) jetzt zu den zugeschriebenen Körpermerkmalen zu zählen sind, oder habitualisierte Körperhaltungen, die sich auf Grund langer Eingewöhnung einer intentionalen Manipulation entziehen. Ein Illustrationsbeispiel für den letzteren Fall findet sich in der Gewohnheit englischer Oberschichtkreise, ihren Kindern eine höhere Stellung der Augenbrauen anzuerziehen (vgl. Birdwhistell 1968: 381).
Zu einem Bereich mittlerer Fixiertheit gehören Körpermanipulationen, die - wie z.B. das Färben der Haare oder das Ansetzen von Bartwuchs - zwar reversibel sind, dem Individuum aber dennoch längerfristig ein stabiles, in allen Kollokalfeldern auf identische Weise zur Geltung kommendes Erscheinungsbild verleihen. Dadurch kontrastieren sie mit jenen nur kurzfristig wirksamen Manipulationen (Schminke, Rasur, Abendfrisur), die häufig im Hinblick auf eine einzelne kollokale Interaktionsphase (z.B. eine Party oder einen Opernveranstaltung) vollzogen werden und bei deren längerem Andauern Schaden zu nehmen drohen.

Drittens wird die "persönliche Erscheinung" in zentraler Weise durch materielle Accessoires wie z.B. Kleidungsstücke, Brillen, Schmuckstücke, Schirme, Handtaschen u.a.) mitkonstituiert, die - obwohl faktisch von ihrem Besitzer jederzeit entfernbar - an seine Person temporär oder dauernd assimiliert sind: indem er exklusive Nutzungsrechte auf sie geltend macht und sie häufig auch mit physischen Charakteristika (z.B. seinen Körpergerüchen) "imprägniert".

Einige dieser Utensilien (z.B. die meisten Kleidungs- oder Schmuckstücke) teilen mit den körperlichen Ausdruckskundgaben der Ebene (2) die Eigenschaft, dass sie vor dem Eintritt ins Kollokalfeld fixiert worden sind und während der Dauer der Interaktionsteilnahme unverändert bleiben. Andere Gegenstände (wie z.B. Hüte, Handschuhe, Mäntel) sind gerade daraufhin angelegt, innerhalb desselben Interaktionsprozesses an- und abgelegt zu werden und dem Individuum zu einer gewissen (selbstkontrollierten) Modifizierbarkeit seines äusseren Erscheinungsbildes zu verhelfen.

Schliesslich ist nicht zu unterschätzen, in welchem Ausmass auch vom menschlichen Körper völlig unabhängige äussere Objekte das persönliche Erscheinungsbild mitkonstituieren: z.B. kostbare Büro- oder Wohnungseinrichtungen,, die sich - als "Bühnenrequisiten" - zusammen mit der Kleidung, Körperhaltung usw. zu einem Gesamteindruck von "Vornehmheit" verbinden. Ein grosser Teil der Konsumgüterwerbung ist damit befasst, verschiedensten Objekten (z.B. Häuser, Möbel, Autos etc.) zu einem derartigen Status zu verhelfen und dadurch jenes Repertoire an individuellen Ausdrucksmöglichkeiten anzureichern, die den Individuen für freie intentionale Gestaltung zur Verfügung stehen.

Aus dem Zusammenwirken dieser vier Ausdrucksebenen können im kollokalen Feld bereits vorgängig jeder Interaktion und Kommunikation relativ spezifische interpersonelle Typifikationen und Erwartungshaltungen entstehen, die den Einsatz gestischer oder verbaler Kommunikationsmedien

einerseits überflüssig machen: weil wichtige Strukturprämissen der sozialen Beziehung bereits hergestellt sind, die z.B. im translokalen Brief- oder Telephonkontakt völlig im Medium der Sprache erarbeitet werden müssen;
andererseits erleichtern: weil viele Verhaltensweisen oder Aussagen rascher und adäquater verständlich werden, wenn man sie auf der Folie eines aus vorgängigen Körperwahrnehmungen konstituierten Persönlichkeitsbildes interpretiert.

Die relativ hohen Unkontrollierbarkeiten und Unvorhersehbarkeiten kollokaler Interaktionsprozesse (vgl. Kap. 4) entstehen vor allem daraus, dass praktisch alle intentionalen Handlungen und Sprechakte unvermeidlicherweise über das Medium der "äusseren Erscheinung" vermittelt werden, deren zweifache Problematik darin beruht, dass sie

auf Grund ihrer Verankerung in körperlichen Merkmalen nur in begrenztem Masse autonom gestaltet und verändert werden kann;
als Ausgangsbasis für spekulative - d. h. nicht auf empirische Evidenz gegründete - Schlussfolgerungen über die "dahinter" stehende persönliche Charakterstruktur fungiert.

So liegt es offensichtlich sehr nahe, körperlich besonders attraktiven Personen auch verschiedenste andere positiv bewertete Eigenschaften auf psychischer und charakterlicher Ebene zu attribuieren und ihnen - was durchaus zur "self-fulfilling prophecy" werden kann - überdurchschnittliche Mobilitätschancen auf dem Heiratsmarkt oder in der beruflichen Arbeitswelt zu attestieren (vgl. z.B. Dion/Berscheid/Walster 1972).

Derartige Voreingenommenheiten mögen sehr wohl dazu führen, dass physisch anziehende Individuen häufiger eine fortgesetzte Zuwendung ihrer Interaktionspartner erfahren und dadurch automatisch auch bessere Chancen zur verhaltensmässigen und verbalen Selbstdarstellung erhalten, während unattraktive oder gar abstossend-hässliche Personen gegenüber ihren zum Rückzug neigenden Interaktionspartnern oft keine Gelegenheit finden, ihre anfänglich negative Eindruckswirkung durch die Artikulation umso positiverer Eigenschaften auf Handlungsebene (Hilfsbereitschaft, Kunstfertigkeit, rhetorische Überzeugungskraft u.a.) zu kompensieren.

Generell mag die Invarianz des äusseren Erscheinungsbildes eines Individuums dazu verführen, ihm über Gebühr auch konstante Persönlichkeitsmerkmale und innerpsychische Eigenheiten zuzurechnen, und das Interaktionsverhältnis mag dadurch erschwert werden, dass die variablen Äusserungen einer Person mit den aus dem "Erscheinungsbild"" hergeleiteten Erwartungshaltungen in ein konkurrierendes, konfliktives Verhältnis treten. So können insbesondere Individuen mit einem sichtbaren äusseren Gebrechen in der kollokalen Situation besondere Erschwernisse erfahren: weil man das sinnlich hervorstechende Einzelmerkmal ihrer Lähmung, Blindheit, Senilität u.a. zum Anlass nimmt, um sie auf generalisierte Weise zu stigmatisieren und alle ihre Verhaltensregungen nur unter dem einen Gesichtswinkel ihres physischen Handikaps (und dem damit assoziierten Zustand dauernder, "Hilfebedürftigkeit") zu interpretieren (vgl. Goffman 1971:87). Bei jedem Neubeginn einer Bekanntschaftsbeziehung wird sich diese Problematik wieder verschärfen: weil erstmalige Interaktionspartner sich zuerst am körperlichen Erscheinungsbild (als der periphersten, sichtbarsten "Ausdruckskundgabe" einer Person) orientieren werden, selbst wenn sie guten Willens sind, in nachfolgenden, viel zeitaufwendigeren Beobachtungs- und Kommunikationsprozessen "sich eines Besseren belehren zu lassen".

Experimentelle Untersuchungsergebnisse zeigen deutlich, dass Individuen am prägenden Primäreindruck, den sie bei ihrer ersten Begegnung voneinander gewinnen, stark festzuhalten pflegen, sofern sie sich nicht durch drastische Informationen gegenteiliger Art zu einer Modifikation genötigt sehen (vgl. Luchins, 1957; Anderson/Hubert 1963; Zimbardo 1980:145f.)

Wer den risikoreichen, wenig beeinflussbaren Wirkungen seines körperlichen Erscheinungsbildes weniger ausgeliefert sein will, hat deshalb zwei völlig gegensätzliche Strategien offen: er kann sein soziales Feld auf relativ intime, langfristige Beziehungen einschränken, in denen seine variableren, autonomer gestaltbaren (aber die Zeit und Aufmerksamkeit seiner Partner stärker beanspruchenden) Ausdruckskundgaben besser zur Geltung kommen; oder er kann sich auf translokale Interaktionen (z.B. Telephon- oder Briefkontakte) verlegen, bei denen die diffusen und unkontrollierbaren Ausdruckskundgaben seines physischen Erscheinungsbildes aus rein technischen Gründen ausgefiltert bleiben.

Die Manipulation der äusseren Erscheinung stellt - aufbauend auf das "Anwesenheitsmanagement" - eine zweite Ebene intentionalen Handelns und interpersonellen Kommunizierens dar, die teils substitutiv, teils komplementär zur Ebene variabler Gestik und Sprechakte zur gezielten Selbstdarstellung und Fremdbeeinflussung eingesetzt werden kann.

Wie im Falle von An- und Abwesenheit kann die Frage, inwiefern z.B. ein "jugendliches Gesicht", ein "gutsitzendes Kleid" oder gar ein "muskulöser Körperbau" Ergebnisse kontingenten Handelns oder nicht manipulierbarer physischer Einwirkungen sind, je nach Situation sehr unterschiedlich beantwortet werden, und Fremddeutungen brauchen natürlich keineswegs mit Selbstzurechnungen zu koinzidieren. So bestehen notorische Unsicherheiten über das genaue Lebensalter, in denen ein Kind für seine Bekleidung und Frisur die Eigenverantwortung übernimmt oder das jugendliche Aussehen einer Dame nur noch auf aufwendiger, raffinierter Toilette beruht.

Vor allem die Präsentation einer "gepflegten äusseren Erscheinung" macht einen ständigen Aufwand an Wachsamkeit, Korrekturmassnahmen u.a. nötig, um den erforderlichen "unwahrscheinlichen" Ordnungszustand der eigenen Kleidung, Frisur u.a. gegen ständige Entropisierungstendenzen zu verteidigen: und dies unter der erschwerten Bedingung, dass Ego selbst viel weniger gut als alle seine kollokalen Beobachter in der Lage ist, sich selbst rundum zu inspizieren.

"Eines der augenfälligsten Mittel, mit dem der Einzelne seine situationelle Anwesenheit belegen kann, ist die disziplinierte Handhabung seiner persönlichen Erscheinung oder seiner `persönlichen Fassade', das heisst des Komplexes von Kleidung, Aufmachung, Frisur und anderer Oberflächendekoration seiner Person. An öffentlichen Orten in der westlichen Gesellschaft soll sich der Mann, der einer bestimmten Schicht angehört, in der Situation adrett gekleidet, rasiert, gekämmt, mit frischem Gesicht und gepflegten Händen präsentieren; für Frauen gelten ähnliche und noch weitere Auflagen. Zu beachten ist, dass in diesen Fragen der persönlichen Erscheinung nicht nur der Besitz der notwendigen Ausstattung zur Auflage gemacht wird, sondern auch die Ausübung einer ständigen Kontrolle, um alles in untadeligem Zustand zu erhalten." (Goffman 1969:36).

Der gezielte Einsatz der "äusseren Erscheinung" als Kommunikationsmedium wird durch die folgenden funktionalen Eigenschaften begünstigt:

Laufende Prozesse gestischer oder verbaler Kommunikation werden von Sebstdarstellungsaufgaben entlastet: weil die erforderlichen Anstrengungen zeitlich vor dem Eintritt ins Interaktionsverhältnis (z.B. bei der Morgentoilette) getätigt werden. Mit Anzug, Gilet und Krawatte kann ich den ganzen Tag über bei beliebigen Partnern als "gepflegte Erscheinung" wirken und habe dadurch eine ohne weitere Bemühungen stabil bleibende, gesicherte Plattform, die ein Basisvertrauen in meine persönliche Normalität und Handlungsfähigkeit erzeugt, so dass ich mich ungestörter allen spezifischeren, variableren Selbstdarstellungshandlungen zuwenden kann.
Meine Körpererscheinung ist ein trotz hoher Komplexität synchron gesendetes, ohne jeden Zeitverzug wahrgenommenes und entschlüsseltes "Makrosignal", durch das ich grundlegende und von momentanen Dispositionen relativ unabhängige Charakteristika meiner Gesamtpersönlichkeit zum Ausdruck bringen kann. In Gestik und Sprache sind demgegenüber nur zeitlich sequenzierte Bruchteile artikulierbar, die überdies immer mit den Spezifika der äusseren Situation, der inneren Stimmung u.a. imprägniert bleiben.
Als unadressiert ausgesandtes, universell wahrnehmbares Signal liefert die äussere Erscheinung ein Instrument äusserst extensiver, auch unplanmässiger Bewirkung: so dass ihre Bedeutung vor allem in dem Masse steigt, als Zahl und Identität der relevanten Interaktionspartner unvorhersehbar variieren, bzw. wenn man auf Partner positiv wirken will, die (noch) keine differenzierteren Eindrücke besitzen oder mangels weiterer Interaktion ausschliesslich auf den äusserlichen Ersteindruck verwiesen bleiben.

Die Identifikation einer bestimmten Person als "Kind", "Frau", "Offizier", "Greis" oder als "invalid", "dick", "bleichgesichtig" oder "kleinwüchsig" ist das Ergebnis eines (im Normalfall visuellen) intuitiv-gesamtheitlichen Wahrnehmungsaktes, der "augenblicklich" (d.h. ohne subjektiv erlebten Zeitverzug) stattfindet und deshalb bereits abgeschlossen ist, wenn ich zu registrieren beginne, welche Verhaltensabläufe diese Person momentan vollzieht. Deshalb steht mir das Personenbild immer schon als ein informationsreicher Interpretationsrahmen zur Verfügung, der mir dazu verhilft, bereits vollzogene Handlungen sinnhaft zu deuten und Erwartungen über zukünftige Verhaltensweisen zu generieren.

Erst nach längerem Beisammensein (möglichst in verschiedenartigen Situationen) habe ich so viele Verhaltensweisen meines Partners beobachtet, dass ich in der Lage bin, aus ihnen ein eigenständiges, mit dem intuitiven Anfangsbild konkurrierendes Modell der durch sie zum Ausdruck kommenden Persönlichkeit zu konstruieren: der Invalide ist bewegungsfähiger, als ich gedacht habe, das schmächtige Kind besitzt Körperkräfte, die man ihm nie zugetraut hätte.

Derartige Urteilsbildungen sind voraussetzungsreich, zeitaufwendig und deshalb chronisch knapp: so dass sie sich tendenziell auf den engeren Kreis meiner regelmässigen Interaktionspartner begrenzen, während es im viel umfangreicheren Feld oberflächlicher und transitorischer Interaktionspartner nötig ist, sich auf das anstrengungslos erworbene (aber entsprechend unkontrollierbar konstituierte) "Bild der äusseren Erscheinung" zu verlassen.

In der modernen. urbanen Gesellschaft besteht die paradoxe Situation, dass

auf der einen Seite die Nachfrage nach informationsreichen Ausdrucksformen der persönlichen Erscheinung sehr gross ist: weil häufig neue Kontakte geknüpft werden und besonders zahlreiche Sozialbeziehungen punktuell und transitorisch bleiben;
andererseits das Angebot an derartigen Orientierungshilfen geringer ist als in früheren, ständisch formierten Agrargesellschaften, in denen jedermann in Kleidung und Habitus sichtbar zur Schau getragen hat, welcher sozialen Gruppe (Klasse, Berufsstand, Zivilstand u.a.) er angehörte.

2.2.4 "Gestik"

Im breitest möglichen Wortsinne sollen mit dem Begriff der "Gestik" alle nicht-verbalen, auf körperlichen Bewegungsabläufen beruhenden persönlichen Kundgaben verstanden werden, die für den Emittenten selbst und/oder die kollokalen Anderen Objekte sinnhafter Wahrnehmung und Deutung bilden. Nur zu einem sehr kleinen Teil handelt es sich dabei um intendierte Äusserungen, die - z.B. substitutiv für Worte - eine verständliche Mitteilung vom Sender zum Empfänger transportieren. Zum grösseren Teil sind es ungeplant emittierte Manifestationen, wie sie als Korrelate unkontrollierbarer senso-motorischer oder gar physiologischer Vorgänge (z.B. Rülpsen, Schnarchen, nervöse Zuckungen u.a.) oder als Begleiterscheinungen innerpsychischer Zustände (z. B. Mimik) entstehen.

Ähnlich wie die schiere räumliche "Anwesenheit" sichergestellt sein muss, bevor die spezifischeren und variableren Manifestationen der "persönlichen Erscheinung" wirksam werden können, so können die noch ungleich volatileren Körpergesten wiederum nur auf der Grundlage einer vorgängig konstituierten "persönlichen Erscheinung" generiert und sinnhaft gedeutet werden. Dieselbe Handbewegung gewinnt je nachdem, ob ein Kleinkind, Verkehrspolizist, Dirigent oder Priester sie vollzieht, völlig verschiedene Konnotationen, und der "jugendliche Schritt" kann sich erst im Kontrast zur leiblichen Fülle oder zum greisenhaften Alter als etwas Bemerkenswertes, Überraschendes profilieren.

Die Verwobenheit beider Ebenen wird am Zwischenbereich jener "habituellen Leibkundgaben" deutlich, die sowohl der invarianten Sphäre der Körpererscheinung wie dem labileren Niveau der Gestik zugerechnet werden können: z.B. im Falle der Körperhaltung, die durch ständige Aktualisierung eingeübter Muskelanstrengungen aufrechterhalten werden muss, oder bei Gewohnheiten des Gehens, Nasenrümpfens oder Umsichblickens, die beim besten Willen nicht unabhängig von der leiblichen Gesamterscheinung wahrgenommen werden können.

Genauso wie die Merkmale der "persönlichen Erscheinung" gelten Gesten in jedem Falle als "Äusserungen": d.h. als empirische Indikatoren intraindividueller Geschehnisse oder Dispositionen, die sich einer direkten Beobachtbarkeit entziehen. Ihre spezifische Funktion besteht darin, den kognitiven Zugang zu den zeitlich variablen Zuständen und Ablaufprozessen eines erlebenden und handelnden Individuums sicherzustellen: wobei die gewichtigen Vorteile gegenüber der sprachlichen Kommunikation darin bestehen, dass

in den Gesten viele intraindividuelle Tatbestände auf relativ unmittelbare Weise sichtbar werden, während Worte immer als höchst vermittelte (weil von den bewussten Mitteilungsabsichten des Emittenten gesteuerte) Äusserungen gedeutet werden müssen;
Individuen zum selben Zeitpunkt ein reiches Spektrum verschiedener Verhaltensweisen (z.B. Gesichtsmimik, Handbewegungen u.a.) aussenden können, während Sprechakte auf strenges zeitliches Nacheinander verwiesen sind - und deshalb mit dem vieldimensionalen Reichtum psychischer Abläufe oft nicht Schritt halten können;
nonverbale Gesten als "analoges" Kommunikationsmedium einer kontinuierlichen Abstufung zugänglich sind, während die Sprache als "digitales" Medium immer dazu zwingt, zwischen diskreten semantischen Alternativen (Begriffen, Satzbildungen u.a.) eine definitive Wahl zu treffen (vgl. Ruesch 1955; Sebeok 1962; Watzlawick/Beavin/Jackson 1967; Wilden 1977).

Diese letztere Eigenschaft erweist sich überall dort als Vorzug, wo auch die zu enkodierenden Tatbestände (Objekte, Zustände oder Ereignisse) den Charakter kontinuierlicher Variabilität besitzen:

Bei der Darstellung physischer Objekte, wo es mittels Gesten gelingt, etwa die Grösse eines Kreises oder die Form einer Vase "ikonisch" (d.h. durch Erzeugung einer der "wahren Form" genau entsprechende oder wenigstens isomorphe Handbewegung) zu symbolisieren (Graham/Argyle 1975).
Beim Ausdruck innerpsychischer Zustände, wo die Verbalsprache eine Entscheidung zwischen kategorial separierten Begriffsbestimmungen ("grosse Wut", "entsetzliche Enttäuschung" etc.) aufzwingt, während es etwa im Medium mimischer Ausdruckskundgaben viel besser gelingt, den feinabgestuften Intensitäten und subtilen qualitativen Ausprägungen solcher Stimmungslagen Rechnung zu tragen.

Dank dieser Affinität zur psychischen Systemebene sind Körpergesten dazu geeignet, innersubjektives Erleben in einer mittels Verbalisierung unerreichbaren Differenziertheit für intersubjektive Kommunikation zu erschliessen: (vgl. Bateson 1968).

So besteht die hauptsächliche Funktionsleistung der Schauspielkünste darin, den defizienten Ausdrucksgehalt eines invarianten Sprachtextes durch variablere nonverbale Ausdrucksmittel (Kostümierung, Körperbewegung, Tonfall, Bühnenszenerien u.a.) zu komplettieren und dadurch z.B. Sphären subjektiven Erlebens (wie z.B. variierende Gefühlsintensitäten), die keiner digital-begrifflichen Artikulation fähig sind, einer intersubjektiven Vermittlung und ästhetischen Gestaltung zugänglich zu machen.

Im Sinne von Ekman/Friesen (1981) können innerhalb der gesamten Sphäre nonverbaler Kommunikation drei Ebenen der Enkodierung identifiziert werden, die sich danach unterscheiden, ob das Verhältnis zwischen Zeichen und Bezeichneten auf physisch determinierten oder auf konventionell definierten Zuordnungen beruht.

Zur äusserst umfassenden Sphäre "intrinsisch kodierter" Gesten gehören alle in der Gegenwart anderer vollzogener Verhaltensweisen, die simultan als Akte physischen Bewirkens und als Akte kommunikativen Ausdrucks fungieren.

Wer eine Ohrfeige verteilt, das Fenster öffnet oder sich intensiv lesend über ein Buch beugt, erzeugt einerseits ein objektives Geschehen und andererseits gleichzeitig auch eine intersubjektive Mitteilung, dass sich genau dieses Geschehen vollzieht. Das reflektierte Mitberücksichtigen der kommunikativen Aspekte mag dann vielleicht dazu verleiten, sich etwas demonstrativer als "notwendig" über das Buch zu beugen, oder zu hoffen, dass auch eine nur angedeutete, nicht schmerzhafte, Ohrfeige ihre Sanktionswirkung tut. Eine der folgenschwersten Spezifika kollokaler Sozialsysteme besteht darin, dass praktisch alle äusserlich wahrnehmbaren Verhaltensweisen auch als "auf sich selbst verweisende Symbole" fungieren: so dass es nicht gelingt, sie aus solch kommunikativen Bindungen loszukoppeln und kompromisslos auf rein sachliche Bewirkungen hin zu orientieren (vgl. 3.4).

Die zweite Sphäre der "extrinsisch kodierten" Gesten umfasst all jene Verhaltensvorgänge, die zu demjenigen, was sie ausdrücken in einem "ikonischen" Verhältnis stehen: und sich somit zum Bezeichneten nicht mehr in einem Kausalverhältnis, aber immerhin noch in einem isomorphen Abbildverhältnis befinden. Die Entlastung von physischen Bewirkungen hat zur Folge, dass verschiedenartige und auch mit sehr geringem Aufwand an Energie oder Qualifikation vollzogene Handlungen hinreichend sein können, um den rein kommunikativen Zweck zu erfüllen: so dass es durchaus möglich ist, mit sachten Handbewegungen ein gewaltiges Orchester zu dirigieren, oder mit der blossen Drohfaust eine dem tätlichen Angriff vergleichbare Einschüchterungswirkung zu erzielen.
Zur dritten, der verbalen Ebene verwandtesten Sphäre "konventioneller" Gesten ("arbitrary extrinsic coding") gehören Ausdruckskundgaben, die mit dem symbolisierten Tatbestand in einem völlig willkürlich festgelegten Zuordnungsverhältnis stehen - und deshalb zu ihrer intersubjektiven Verständlichkeit einer umso festeren Verankerung auf der kulturellen Ebene bedürfen. Paradoxerweise bedeutet die "Willkürlichkeit" derartiger Symbolhandlungen (wie z.B. Händeschütteln, Kopfnicken, Applaudieren etc.) keineswegs, dass sie von den Akteuren nach Belieben umdefiniert, eliminiert oder neu erzeugt werden könnten. Ganz im Gegenteil haben konventionell festgelegte Symbole (wie z.B. auch Sprachbegriffe) die Eigenschaft, besonders ritualisiert zu sein und sich der deliberaten Kreation oder Manipulation viel weitgehender als z.B. ikonische Gesten zu entziehen. Denn weil jede intrinsische Bezüglichkeit zum bezeichneten Referenten fehlt, wird es bei jeglicher Modifikation der Bedeutungszuordnungen erforderlich, sehr umfassende Prozesse sozialer Diffusion, Konsensbildung, Sozialisierung und Tradierung stattfinden zu lassen.

Während sich verbale Äusserungen (z.B. Begriffe, Sätze u.a.) zu Formtypen verdichten, die völlig unabhängig davon, auf welche Weise sie gesprochen oder geschrieben werden, dieselbe invariante Bedeutung beibehalten, so bleibt der präzise Sinngehalt der meisten nonverbalen Gesten unauflöslich an die spezifische Art und Weise ihrer Ausführung gebunden. So können sich Emittenten durch Verfeinerung ihrer motorischen Selbstkontrolle immer reichhaltigere und subtilere Fähigkeiten zu nonverbalen Ausdruckskundgaben erschliessen; und die dekodierenden Rezipienten können sich durch Differenzierung ihres Wahrnehmungs- und Interpretationsvermögens in die Lage versetzen, immer feinere Nuancierungen (des Gesichtsausdruckes, der Handbewegungen u.a.) zu registrieren und adäquat zu verstehen:

"Die kommunikative Bedeutung des Tonfalls, in den ich diese Redeäusserung kleide, des genauen Zeitpunkts (im Verhältnis zu den Voten meiner Konversationspartner), zu dem ich sie ausspreche, der Geschwindigkeit, mit der ich die Worte einander folgen lasse etc. etc., all dies hängt völlig von der Fähigkeit der Rezipienten ab, genau diese Merkmale richtig zu erfassen." (Kendon 1981:3f.)

Weil man nicht sprechen kann, ohne auf eine bestimmte Weise zu sprechen, sind alle kollokalen Redeäusserungen zwangsläufig mit einer Aura "intrinsischer" nonverbaler Begleitäusserungen behaftet, die vom Sprechakt selbst nicht ablösbar sind. Darüber hinaus aber scheint es generell üblich zu sein, alles kollokale Sprechen auch in ein Milieu "extrinsischer" Gestik einzubetten: vor allem durch äusserst fein differenzierte Gestikulationen (der Hände u.a.), die mit den sprachlichen Äusserungen in einem dicht verwobenen komplementären Parallelitätsverhältnis stehen (vgl. Kendon 1983:17).

So scheint der Spracherwerb während des ontogenetischen Reifungsprozesses eines Individuums keineswegs mit einem Verlust an Gestik einherzugehen: vielmehr werden die beim Kleinkind "frei flottierenden" nonverbalen Verhaltensweisen gleichsinnig ausdifferenziert und mit den verbalen Ausdrucksprozessen immer perfekter integriert (vgl. Bates 1979; Kendon 1983:24).

Wenn kollokale Sozialsysteme unter verschiedensten Situationsbedingungen fast voraussetzungslos und unvermeidlich entstehen und zu ihrer Kontinuierung (abgesehen von fortgesetzter Anwesenheit) keiner besonderen strukturellen Vorkehrungen bedürfen, so ist dies vor allem der Existenz und permanenten Aktiviertheit der fundierenden nonverbalen Kommunikationsebene zu verdanken, die als "Auffangebene" verfügbar ist, wenn die voraussetzungsreichere verbale Kommunikation versagt.

Häufig nur rudimentär ausdifferenziert, stellt sie eine entwicklungsfähige "Kommunikationsreserve" dar, deren Kapazität nur in Ausnahmesituationen voll ausgeschöpft werden muss: z. B. wenn Taubstumme oder Angehörige verschiedener Sprachgruppen miteinander in Beziehung treten, oder wenn strikte institutionelle Normen Schweigen gebieten.

So waren die Indianer der "great plains" auf eine hoch differenzierte Zeichensprache als "lingua franca" verwiesen, als sie im Zuge rascher Stammesexpansion erstmals miteinander in Berührung traten, genauso wie verheiratete armenische Frauen, die durch Redeverbot (während des Essens) zum Austausch vielfältiger Gesten genötigt werden (vgl. Kendon 1983:37).

Während der Entstehungsprozess einer neuen Verbalsprache Jahrhunderte benötigt und sich - im starken Kontrast zur hohen Intentionalität des Sprachgebrauchs - einer absichtsvollen Steuerung weitgehend entzieht, können gestische Zeichensprachen innerhalb eines kontinuierlichen und relativ geschlossenen kollokalen Feldes ziemlich rasch zur Ausdifferenzierung gelangen. Diese höhere Evolutionsfähigkeit ist zum Teil sicher der Tatsache zu verdanken, dass viele nonverbale Gesten einen "ikonischen" Charakter tragen: d.h. mit demjenigen, was sie bezeichnen, in einem intrinsischen Isomorphieverhältnis (anstatt bloss einem konventionellen Zuordnungsverhältnis) stehen (Ekman/Friesen 1981).

Während selbst intimste Unterredungen und Konversationen in Form und Sinngehalt fest in der Konventionalität der Sprache verhaftet (und deshalb auch für beliebige Dritte verstehbar) bleiben, so eignen sich nonverbale Gesten als Trägermedium für die Ausdifferenzierung partikularistischer Verständigungscodes, deren Geltung sich strikte auf das Interaktionsfeld zwischen partikulären Einzelindividuen beschränkt.

Die geringere Einbindung in systemexterne, kulturell verankerte Codestrukturen muss dann allerdings mit umso stärkeren Restriktionen systeminterner Art erkauft werden: indem Gestensprachen zu ihrer Entstehung und Reifung auf aussergewöhnlich stabile und langfristig bestehende kollokale Interaktionsverhältnisse angewiesen sind und in ihrer Geltung meist auf jene Individuen beschränkt bleiben, die sich bereits an ihrer Genese mitbeteiligt haben.

So hat Knapp bei konnubialen Ehepaaren einen langfristigen Perfektionierungsprozess der dyadischen nonverbalen Kommunikation beobachten können, der bei beiden Partnern von einer Zunahme der Enkodierungs- wie auch der Dekodierungsfähigkeiten begleitet ist und in folgenden konsistenten Entwicklungen seinen Ausdruck findet:

Ein immer breiteres Spektrum immer feinerer Verhaltensnuancen wird in den kommunikativen Austausch einbezogen.
Anstelle kulturell stilisierter (d.h. auch anderswo verwendeter) Ausdrucksformen werden immer mehr rein bilateral definierte "Sprachregelungen" verwendet: d.h. es wird eine vom Kontext separierte "Mikrokultur" aufgebaut, die es äussern Beobachtern (inkl. Soziologen) zunehmend erschwert, die Kommunikation zu verstehen.
Die Kapazität der Informationskanäle nimmt zu: indem es gelingt, innerhalb derselben Zeitspanne immer zahlreichere Kommunikationsakte stattfinden zu lassen.
Indem eine wachsende Zahl funktional äquivalenter Ausdrucksweisen für denselben Sinngehalt zur Verfügung steht, wächst die Chance, unter beliebigen situativen Bedingungen (z.B. bei unterschiedlichen räumlichen Distanzen) zuverlässig zu kommunizieren.
Der gestische Austausch wird in dem Sinne habitualisiert, dass die Partner sowohl zur Enkodierung wie zur Dekodierung immer weniger Aufmerksamkeit aufwenden müssen und deshalb zunehmend in der Lage sind, ihre Kommunikation "beiläufig" (d.h. ohne Behelligung ihrer übrigen Aktivitäten) stattfinden zu lassen (vgl. Knapp 1983).

Indem die der nonverbalen Ausdrucksebene eigenen funktionalen Leistungsvorteile auf diese Weise immer stärker zur Entfaltung gelangen, wird sie fähig, um

komplementär zur Sprache dem Sozialsystem sehr subtile und flexible, voraussetzungslos zugängliche und höchst zuverlässige Möglichkeiten der interpersonellen Akkordierung zu erschliessen, die für den Vollzug anspruchsvoller Kooperationsleistungen (z.B. in medizinischen Operationsteams) grösste Bedeutung haben (vgl. Goffman 1983);
substitutiv zur Sprache einen grösseren Anteil der gesamten intrasystemischen Kommunikation zu absorbieren, so dass sich die Teilnehmer auf verbaler Ebene mit einem "restringierten Code" begnügen können, bei dem die meisten übermittelten Sinngehalte unausgesprochen bleiben (vgl. Bernstein 1964).

III

Bekanntlich muss bereits das An- und Abwesendsein als ein fundamentales Basisverhalten angesehen werden, das - jeder spezifischen Interaktion vorangehend - als Trägermedium für soziale Kommunikation Verwendung finden kann. Die Übermittlungskapazität dieses Kanals ist aber äusserst beschränkt, weil es in sachlicher Hinsicht nicht über eine blosse Digitalität (d.h. ein einziges 'bit' Information) hinaus differenzierbar ist: so dass es höchstens auf Grund seiner zeitlichen Spezifizierung (z.B.: Pünktlichkeit des Erscheinens, Häufigkeit der Teilnahme, Länge der Anwesenheit u.a.) möglich wird, exaktere Aufschlüsse zu gewinnen.

Demgegenüber enthält die Ebene der "persönlichen Erscheinung" einen sachlich komplexeren und in zeitlicher Hinsicht variableren Grad an Information, insofern

verschiedene Individuen ihre je eigenen Körpermerkmale und intendierten Weisen äusserlicher Selbstdarstellung zum Ausdruck bringen;
dieselben Individuen, je nach Lebensalter oder aktuellem Befinden, ein unterschiedliches Erscheinungsbild bieten und je nach den Eigenheiten des sozialen Anlasses absichtlich in unterschiedlicher Montur erscheinen.

Immer noch aber ist der Grad an zeitlicher Variabilität äusserst beschränkt, weil viele Erscheinungsmerkmale mit den langfristig stabilen anatomischen und physiologischen Eigenschaften des biologischen Körpers verhaftet sind, und weil die intentionalen Arrangements der persönlichen Aufmachung darauf angelegt sind, zumindest im Rahmen einer einzelnen sozialen Situation (z.B. während einer Abendeinladung, einer Beerdigungsfeier, eines beruflichen Vorstellungsgesprächs u.a.m.) möglichst invariant zu bleiben.

Entsprechend wird seitens des Emittenten keine Zeit beansprucht, um das im äusseren Erscheinungsbild enthaltene Bündel an Information mitzuteilen: so dass die für mich als Partygast benötigte Zeit, um mir einen äusseren Eindruck von allen übrigen Gästen zu verschaffen, nur von meinen eigenen Wahrnehmungsprozessen abhängig ist.

Nicht-verbale Vehaltensweisen haben demgegenüber die Eigenschaft, dass sie

mit dem physischen Substrat persönlicher Anwesenheit und Körpererscheinung in einem äusserst lockeren, indeterminierten Zusammenhang stehen;
sich deshalb im Vergleich zur "persönlichen Erscheinung" viel besser eignen, um mannigfachste interindividuelle Unterschiede wie auch intra-individuelle Variationen (z.B. zeitliche Wandlungen der Stimmungslagen, Interessen u.a.) zum Ausdruck zu bringen;
in doppelter Hinsicht ihre Komplexität nur unter Beanspruchung von Zeit angemessen entfalten können:
a) weil jeder einzelne Verhaltensablauf Zeit braucht, um vom Beginn bis an sein Ende zu kommen;
b) weil nur sehr wenige Verhaltensabläufe simultan ablaufen können: so dass sie in zeitlicher Sequenz angeordnet werden müssen.

Da nun der Emittent Zeit braucht, um seine informativen Stimuli auszusenden, und der Rezipient Zeit benötigt, um sie zu registrieren, ist jetzt eine intersubjektive Akkordierung motorischer und sensorischer Prozesse notwendig, um den Erfolg des kommunikativen Aktes zu garantieren. Spezielle Mechanismen der Erwartungsbildung und der begleitenden Kontrolle müssen gewährleisten, dass ich genau dann (und solange) hinsehe, wenn mein Partner handelt: bzw. dass ich mich vor Ausführung meiner eigenen Gesten vergewissere, dass mein Partner sein enges Wahrnehmungs- und Aufmerksamkeitsfeld auf mich fokussiert.

Die Konstitution, Wahrnehmung und Interpretation des nicht-verbalen Verhaltens vollzieht sich also unter den äusserst erschwerten Bedingungen, dass Emittent und Rezipient symmetrische Probleme zeitlicher, sachlicher und sozialer Selektivität in wechselseitiger Abstimmung zueinander bewältigen müssen:

Emittent Rezipient

sachlich: was will ich tun? was soll ich beobachten?

zeitlich: wann will ich es tun? wann soll ich wahrnehmen?

sozial gegenüber wem will ich es tun? wen will ich beobachten?

Diese Selektions- und Koordinationsprobleme sind so enorm und die zu ihrer Bewältigung entwickelten Mechanismen so beeindruckend und vielfältig, dass bei ihrer angemessenen Diskussion fast alle Aspekte der soziologischen Theoriebildung mitthematisiert werden müssten.

Andererseits halten sich diese Probleme im Bereich nicht-verbalen Verhaltens dennoch in viel engeren Grenzen als in der Sphäre sprachlicher Kommunikation, wo noch ungleich höhere Niveaus der Variabilität und Temporalisierung auftreten (und entsprechend drastischere Mechanismen der Selektivität wirksam werden müssen (vgl. 2.2.5):

Während der Emittent im selben kleinen Zeitabschnitt nur einen einzigen Satz ausformulieren und nur über ein einziges Thema sprechen kann, so ist er in der Lage, simultan durchaus verschiedene nicht-verbale Stimuli auszusenden, die in unterschiedliche Sinnkontexte eingebettet sind und auf verschiedene Interaktionspartner ausgerichtet werden.

Ein Grund dafür liegt darin, dass neben dem akustischen Emissionskanal (der auf strenge zeitliche Sequenzierung hin angelegt ist) noch andere Trägermedien des Ausdrucks zur Verfügung stehen. Insbesondere lässt sich der Körper als komplexes visuelles Ausdrucksfeld beanspruchen, weil seine verschiedenen hochdifferenzierten Muskelpartien (Augen, Gesicht, Hände, Wirbelsäule u.a.) unabhängig voneinander bewegt werden können.
So kann es in Gesprächssituationen leicht geschehen, dass nonverbale Kundgaben dem zähen Strom der Rede leichtfüssig vorauseilen: beim Rezipienten den Erwartungs- und Deutungshorizont vorstrukturierend, innerhalb dem er dann die nachfolgenden Verbalisierungen interpretiert. Ein mit diesem Deutungsrahmen in Widerspruch stehender Inhalt der Rede vermag sich häufig nicht durchzusetzen, weil die nonverbalen Kundgaben primär zum Zuge kommen und auch meist für authentischer (weil: für weniger leicht manipulierbar) gehalten werden:
"Und wenn ich fragte 'kennen Sie die Guermantes?' gab Legrandin, der Plauderer, zur Antwort: 'Nein, und ich habe auch niemals Wert darauf gelegt.' Leider aber antwortete er nur als zweiter, denn ein anderer Legrandin, den er sorgfältig in seinem Inneren verbarg und niemals vorzeigt, weil dieser Legrandin über den unseren und seinen Snobismus allerlei kompromittierende Geschichten wusste, ein anderer Legrandin, sagte ich, hatte zuvor bereits seine Antwort gegeben durch den verwundeten Blick, die verbissene Linie seines Mundes, den übertriebenen Ernst im Tone seiner Erklärung, durch die tausend Pfeile, von denen unser Legrandin sich einen Augenblick gespickt und versehrt gefühlt hatte, ein heiliger Sebastian des Snobismus: 'Ach! Wie tust Du mir weh! Nein, ich kenne die Guermantes nicht, rühre nicht an den grossen Schmerz meines Lebens.' Und wenn dieser zweite Legrandin, das enfant terrible, nicht über die nette Ausdrucksweise jenes zweiten verfügte, so war er doch viel schlagfertiger, bestand aus lauter 'Reflexen', wie man sagt, und wenn Legrandin der Plauderer ihm das Schweigen gebieten wollte, hatte der andere längst gesprochen, und es nützte unserem Freund nichts, wenn er nachträglich verzweifelt war über den schlechten Eindruck, den die Enthüllungen seines alter Ego machten; er konnte nur noch versuchen, ihn etwas zu verwischen." (Proust 1979:172/172).

Werden dieselben kommunikativen Inhalte parallel auf verbaler und auf nonverbaler Ebene emittiert, gelingt es, dem Kommunikationsprozess eine höhere "Robustheit" zu verleihen: so dass ihre adäquate Rezeption und Dekodierung selbst unter widrigen Situationsbedingungen gesichert werden kann. Wenn jederzeit mit plötzlichem Lärm gerechnet werden muss oder wenn die Partner sich aus grösserer Entfernung oder fahrendem Auto miteinander zu verständigen suchen, ist es beispielsweise ratsam, Grussworte durch begleitende Handgesten oder umgekehrt: warnendes Winken durch zusätzliche Rufe zu unterstützen (vgl. Birdwhistell 1970:107f.).
Generell haben solch mehrfach enkodierte Kommunikationsakte die Eigenschaft, sich prägnanter aus dem Umfeld der übrigen (simultanen) wahrnehmbaren Ereignisse auszudifferenzieren und dementsprechend auch in der Erinnerung stärker haften zu bleiben. So bleiben beispielsweise gesprochene Sätze besser im Gedächtnis haften, wenn sie von ausdrucksvollen Körpergesten begleitet werden (vgl. Berger/Popelka 1971).
Blickkontakte haben beispielsweise häufig die Funktion, den Sinngehalt gleichzeitig emittierter Verbaläusserungen zu unterstreichen, dem gesamten Kommunikationsakt dadurch mehr Redundanz und "Robustheit" zu verleihen und das Risiko, dass die Rede falsch (z.B. ironisch statt ernsthaft) verstanden wird, stark zu reduzieren.
So hat sich in einer Experimentaluntersuchung von Ellsworth/Carlsmith (1977) gezeigt, dass Kommunikatoren, die die Rezipienten während des Sprechens häufig und lange anblicken, von diesen

bei positivem Inhalt ihrer Rede günstiger beurteilt werden
bei negativem Inhalt ihrer Rede ungünstiger beurteilt werden

als wenn - was beispielsweise bei Telephongesprächen zwangsläufig der Fall ist - Blickkontakte fehlen.

Während der Rezipient sprachlicher Äusserungen sein integrales Aufmerksamkeitsfeld auf einen einzigen Sprecher ausrichten muss, um sich auf den hohen Überraschungsgehalt verbaler Kommunikation einzustellen, kann der Perzipient nicht-verbaler Verhaltensweisen einen breiteren, unselektiveren Zugang zu seiner sozialen Umwelt aufrechtzuerhalten: weil er eben mehrere Sinnesorgane zur Verfügung hat und ganz besonders mit seinem visuellen Organ in der Lage ist, simultan relativ komplexe, vieldimensional konstituierte Muster zu registrieren.

Bei der Mimik beispielsweise können Stellungen und Bewegungen verschiedener Gesichtspartien derart zu kohärenten Ausdrucksgestalten verdichtet werden, dass es möglich wird, simultan mehrere Gefühlszustände zur Kundgabe zu bringen. Elemente von Ungeduld, Vorfreude, Ängstlichkeit u.a. können sich in derselben Synchronizität, die ihrem subjektiven Erleben eigen ist, auch im Medium intersubjektiv wahrnehmbarer Verhaltensweisen zum Ausdruck bringen, während ihre verbale Explikation ein ihrem Wesen zuwiderlaufendes zeitliches Nacheinander nötig machen würde (vgl. z.B. Plutchik 1962; Ekman/Friesen 1981).
Nicht zuletzt dank diesem "Realzeitverhältnis" zwischen Erleben und Kommunikationsverhalten können nonverbale Ausdruckskundgaben einen auf verbalem Wege unerreichbaren Grad an Authentizität und "Wahrhaftigkeit" erreichen: so dass sie überall dort, wo solche Authentizität hoch geschätzt wird (z.B. in psychotherapeutischen "encounter groups") gegenüber der verbalen Ebene in Führung gehen.

Während der sprachliche Kommunikationsfluss seine eigene zeitliche Variabilität und Unvorhersehbarkeit dadurch erzeugt, dass es normalerweise als inopportun, ja abstrus und psychopathologisch angesehen wird, wenn jemand auch nur zweimal genau dasselbe sagt, so sind die Variationszwänge beim nicht verbalen Verhalten viel weniger streng normiert. Niemand wird allein deshalb negativ sanktioniert, weil er sehnsüchtige Blicke, schelmisches Lächeln, unwilliges Kopfschütteln oder selbst neurotisch wirkendes Mundzucken mehrmals wiederholt: und von allen Individuen wird stillschweigend erwartet, dass sie fortgesetzt dieselben Verhaltensanstrengungen aufwenden, um einen bestimmten Habitus ihrer Körperhaltung, ihres Gesichtsausdrucks oder des Tonfalls ihrer Stimme zu stabilisieren.

Aus all diesen Gründen fehlt das für verbale Kommunikation typische Dilemma, dass sich aufgrund der Knappheit an Redezeit und Zuhörchancen entweder eine asymmetrische Polarisierung zwischen einem Sprecher und vielen Zuhörern oder aber eine Fragmentierung in zahlreiche unabhängige Konversationsgrüppchen (häufig bilateraler Art) ergibt.

Vielmehr überwiegt ein relativ lose koordiniertes, dezentralisiert gesteuertes Netzwerk multilateraler Emissions- und Rezeptionsaktivitäten: ein Grundpegel anarchischer, aber gerade deshalb äusserst beständiger "nicht-zentrierter Interaktion", bei dem jedes Individuum sich die Freiheit wahrt, als autonomes Emissions- und Rezeptionszentrum intersubjektiver Kommunikation zu fungieren:

"Alle Anwesenden stürzen sich in einen gemeinsamen Teich nicht-zentrierter Interaktion, jeder Einzelne vermittelt jedem in der Situation allein durch seine Anwesenheit, sein Benehmen, seine äussere Erscheinung irgendwelche Informationen von sich, und jeder Anwesende nimmt ähnliche Informationen über die anderen entgegen, zumindest insofern, als er willens ist, von seinen Möglichkeiten, etwas zu erfahren, Gebrauch zu machen."
"In diesem Bereich nicht-zentrierter Interaktion kann keinem Teilnehmer 'offiziell' das Wort erteilt werden: es gibt kein offizielles Zentrum für allgemeine Aufmerksamkeit." (Goffman, 1969:146;42).

So vermag das sich auf anspruchsloseste Weise ständig regenerierende Geflecht sinnlicher Verhaltenswahrnehmungen dem kollokalen Sozialsystem zu einer weitreichenden und zuverlässigen primären Integration und zu einem Rahmen gesicherter gemeinsamer Situationsdefinitionen, Interpretationen und Antizipationen zu verhelfen, innerhalb dem dann die sprachliche Kommunikation gefahrloser ihre differenzierenden - häufig von Asymmetrien, Desorganisation und Abspaltung begleiteten - Wirkungen entfaltet.

"Oberhalb und jenseits dieser allgemeinen Teilnahme aber beteiligen sich die voll integrierten Mitglieder einer besonderen Begegnung zusätzlich an einer Interaktion zentrierter Art; in ihr ist die Information eines Einzelnen als spezifischer Beitrag zu einem gerade diskutierten Thema gemeint und hat gewöhnlich auch einen bestimmten Adressaten, während die andern Mitglieder der Begegnung, und nur diese anderen, sie ebenfalls aufnehmen sollen. So liegt eine allen gemeinsame Basis nicht-zentrierter Interaktion einer nicht allen gemeinsamen Basis zentrierter Interaktion zugrunde (oder mehreren solchen Basen)" (Goffman, 1969: 147).

Dieses "Basisrauschen" nicht-verbaler Kommunikation konstituiert einerseits die Ausgangsbasis, auf der (z.B. indem sich jemand plötzlich zum Redner aufschwingt, oder alle aufhorchen, um dem Gespräch zweier Teilnehmer zuzuhören) sich ein viel schmalerer und im Zeitablauf ausgeprägt variierender Überbau "zentrierter Interaktion" aufbauen kann; und andererseits bildet es die jederzeit verfügbare "Rückzugsbasis", auf die das Interaktionssystem nach anstrengenden Phasen der Zentrierung jederzeit regredieren kann, ohne seinen Charakter als soziales Interaktionssystem zu verlieren. So bleibt ein Theaterpublikum nach beendeter Vorstellung zumindest noch eine Zeitlang als nicht-zentriertes Feld einander stossender, musternder, winkender und sich vor der Garderobe gefügig in die Schlange einreihender Individuen erhalten; und in durchaus ähnlichem Aggregationszustand pflegen sich ermüdete Schulklassen während der Pausen vom anstrengenden zentrierten Unterricht zu erholen.

Bekanntlich stösst man beim Versuch, die Anwesenheit einer Person sowie ihre äussere Erscheinung als intentionale Handlungen (bzw. deren Ergebnisse) aufzufassen, auf recht enge Grenzen, denn

jeder Mensch ist dem unentrinnbaren Zwang ausgeliefert, jede Minute des Tages irgendwo zu sein und andern Individuen einen bestimmten Anblick zu bieten: völlig unabhängig davon, inwieweit er diese ökologischen und physischen Parameter seiner Befindlichkeit absichtsvoll kontrolliert;
auf Grund harter physischer Gegebenheiten lassen sich die meisten Absichten zur Manipulation solcher Zuständlichkeiten nur schwer oder überhaupt nicht verwirklichen: z.B. weil man sich nicht gleichzeitig oder kurz nacheinander an völlig verschiedenen Orten aufhalten kann, oder weil biologisch fixierte Körpermerkmale (bedingt durch Geschlecht, Alter u.a.) der Manipulation des äusseren Erscheinungsbildes Widerstand entgegensetzen.

Am entgegengesetzten Pol höchster Intentionalisierung wäre wohl das verbale Kommunikationsverhalten anzusiedeln, denn

weil man (zumindest im Sinne physischer Kausalität) niemals gezwungen ist, überhaupt etwas zu sagen, wird die Tatsache, dass ein Sprechakt erfolgt, fast unweigerlich als Indiz für eine absichtsvolle Handlung gewertet;
weil man im Medium der Sprache mit gleichbleibender Mühelosigkeit alles und jedes in beliebig variabler Diktion zum Ausdruck bringen kann, wird - ausser in psychopathologischen Fällen - auch das Was und Wie der Rede dem Sprecher als eigenselektiv-intentionale Handlung zugerechnet.

Nicht-verbale Verhaltensweisen belegen nun zwischen diesen beiden Polen eine intermediäre Position, oder besser: ein relativ breites Spektrum mittlerer Positionen, das sich vom Bereich praktisch unkontrollierbarer, physiologisch bedingter oder habitualisierter Verhaltensreflexe (Niesen, Rülpsen, Gewohnheiten des Gehens, Händereichens, Lächelns u.a.) bis zu völlig absichtsvoll gemeinten und verstandenen Handlungen erstrecken.

Wird die "persönliche Erscheinung" durch biologisch zugeschriebene Körpereigenschaften noch direkt determiniert, werden Verhaltensweisen durch sie nur noch konditioniert: indem sie einen Variationsspielraum potentiell ausführbarer senso-motorischer Abläufe begrenzen, ohne zu präjudizieren, ob, wann und wie oft eine spezifische Verhaltensweise erfolgt.

Entsprechend wird der Tatbestand individueller Autonomie erst auf dieser dritten Ebene zu einer derart regelmässigen, generalisierten Erfahrung, wie dies für die Konstituierung selbstreferentieller Persönlichkeitssysteme und intersubjektiver Sozialsysteme notwendig ist:

Jedes Individuum erfährt sich selbst als ein Selektionszentrum, das andauernd aus einer Vielzahl gleich zugänglicher Alternativen auswählen kann und muss: so dass es für die Orientierung an Werten, Normen, Präzedenzen, "Bedürfnissen" und vielen andern Strukturierungshilfen sensibilisiert wird, die ihm diese "Reduktion von Komplexität" erleichtern.
Interagierende Individuen erfahren einander als andauernd selbstbestimmende Akteuren und müssen damit leben, dass sie für ihre eigenen Handlungen zur Verantwortung gezogen werden und die Verhaltensweisen anderer als eigenselektive (also nicht durch deterministische Kausalwirkungen hinreichend konstituierte oder beeinflussbare) Ereignisse hinnehmen müssen.

Dieser Selektionszwang teilt mit dem physischen Körper die Eigenschaft, den Menschen unentrinnbar über seine ganze (zumindest: wache) Existenzdauer hinweg zu begleiten. Darf die Einsicht "Man nimmt mich wahr, also bin ich" als konstitutiv für eine primäre, bereits dem kleinsten Kind zugängliche selbstreferentielle Existenzerfahrung gelten, so ist das Urteil "Ich muss wählen, also bin ich " dank ihrer ähnlich zwingenden Evidenz geeignet, das Selbstbewusstsein des Individuums als autonom handlungsfähiges Subjekt zu begründen.

Andererseits aber ist nicht-verbales Verhalten immer noch so weitgehend in physische Bedingungs- und Einflussverhältnisse eingebunden, dass es selten einen so hohen und unbestrittenen Grad der Intentionalisierung erreicht, wie er für Sprechakte generell charakteristisch ist:

Der Spielraum realisierbarer Intentionen wird immer noch durch relativ spezifische, nicht manipulierbare Randbedingungen (Körperbau, Wahrnehmungsfähigkeiten, motorische Kondition u.a.) erschwert oder verunmöglicht, die zwischen verschiedenen Personen wie auch im Verlaufe individueller Biographien auf unkontrollierbare Weise variieren.

Deshalb kann es niemals eine ähnlich generalisierte "Verhaltenskompetenz" geben, wie es eine "generalisierte Sprachkompetenz" (vgl. 2.2.5) gibt. Denn in zahlreichen - eigenen und fremden - Verhaltensweisen werden Individuen physisch-kausal bedingte Zwangsläufigkeiten und Regularitäten entdecken, die den Handlungscharakter vieler Verhaltensabläufe verringern (und die Probleme des Selektionszwanges, der Kontingenz und verantwortlichen Zurechnung entsprechend reduzieren).

Individuen können sich nicht ähnlich souverän zum "Verhalten" oder "Nichtverhalten" entschliessen, wie sie sich jederzeit für das "Reden" oder "Schweigen" entscheiden können. Zwar sind sie zumindest im Schlaf oder bei Bewusstlosigkeit von Verhaltenszurechnungen dispensiert: während sie auf dem fundamentaleren Niveau ihrer "persönlichen Erscheinung" selbst dann noch unentwegt sinnlich wahrnehmbare Stimuli emittieren.

Aber in ihrem normalen Wachzustand sind Individuen daraufhin angelegt, ununterbrochen ein relativ hohes Niveau motorischer und sensorischer Variabilität aufrechtzuerhalten: so dass "absolute Bewegungslosigkeit" nur annäherungsweise und unter grössten Anstrengungen erreichbar ist und als unnatürlichster - entweder auf höchste intentionale Anspannung oder auf katatonischen Wahnsinn hinweisender - Zustand gilt.

Dieser Basispegel ständiger motorischer Abläufe hat zur Folge, dass jedes Individuum andauernd viel mehr Verhaltensstimuli emittiert, als es zum Objekt aufmerksamer Beachtung und intentionaler Kontrolle machen kann. Hinzu kommt, dass von aussen her selten eindeutig beobachtbar ist, auf welche seiner Äusserungen ein Emittent momentan eine bewusste Aufmerksamkeit fokussiert: so dass der intentionale Gehalt vieler Verhaltensweisen zwielichtig bleibt und vom Akteur selbst anders als von seinen Interaktionspartnern beurteilt wird.

Weil man schliesslich seine Augen immer irgendwohin wenden muss, kann man immer bestreiten, mit dem Anblicken oder Anstarren einer Person eine bestimmte Absicht (z.B. Kontakt aufzunehmen, Missbilligung auszudrücken u.a.) zu verbinden; und mein vernehmbares Räuspern während einer Diskussion muss nicht als "Kommentar" zum soeben gehörten Votum aufgefasst werden, weil auch rein stimmphysiologische Erklärungsmöglichkeiten zur Verfügung stehen (vgl. z.B. Luhmann 1972, Kendon 1983: l4)

Gerade weil ihr Handlungscharakter so undeutlich ist und deshalb verschiedenartigen und leicht revidierbaren Deutungen offensteht, sind nicht-verbale Verhaltensweisen viel besser als verbale Äusserungen dazu geeignet, um bei relativ hoher Erwartungsunsicherheit mit wenig Aufwand und Risiko neue Interaktionsmöglichkeiten und Konsenschancen zu explorieren. So können kollokale Individuen (z.B. auf "Begegnungsparties") ihre Blicke ähnlich wie Pflanzen ihre Sporen um sich streuen: in Erwartung, dass zumindest einer von ihnen "haften" bleibt und einen kommunikativen Prozess auslöst, der zu einer Tanzaufforderung, Bekanntschaft, Freundschaft oder noch weiter führen kann.

Das kontinuierliche "Grundrauschen" ständiger sensorischer Wahrnehmungsprozesse - die selber nur sehr begrenzt wahrnehmbar sind - hat zur Folge, dass Individuen nur geringe Kontrolle und nur begrenztes Wissen darüber haben, welche der von ihnen ausgesandten Verhaltensstimuli von wem wann wie wahrgenommen werden.

Besonders ausgeprägt trifft diese Problematik auf die Gesichtsmimik zu: weil mimische Kundgaben

ununterbrochen ausgesendet werden müssen, da das Gesicht im Gegensatz zu den übrigen Körperteilen den Mitanwesenden permanent in unverhüllter Nacktheit dargeboten wird und auch (im Gegensatz etwa zu den Händen) in seiner Lage und Darstellungsperspektive kaum manipuliert werden kann;
von den Mitanwesenden mit besonders hoher Wahrscheinlichkeit registriert werden: weil allein schon die Höflichkeit es gebietet, seinen Partner mit einer gewissen (allerdings auch wieder begrenzten) Häufigkeit und Zeitdauer ins Antlitz zu blicken (Ekman/Friesen 1969) und es darüber hinaus als erwiesen gilt, dass im Gesichtsausdruck besonders informationsreiche und authentische Kundgaben sichtbar werden;
vom Emittenten besonders schwer registrierbar und kontrollierbar sind, weil ausgerechnet sein Gesicht, das für alle Interaktionspartner im Zentrum visueller Aufmerksamkeit steht, sich so weitgehend wie kaum ein anderer Körperteil seiner eigenen Wahrnehmung entzieht.

Das hat zur Folge, dass die Selektivität der nonverbal übermittelten Kommunikationen in hohem Masse den Aufmerksamkeitsleistungen und Dekodierungsfähigkeiten des Rezipienten aufgebürdet wird: weil die Vielfalt der permanent erzeugten Kundgaben ihm viel Autonomie überlässt, das Wann, Was und Wie seiner Wahrnehmung selber zu bestimmen.

Dies wiederum bedeutet, dass im Verhältnis zwischen Selbst- und Fremdwahrnehmung (wie auch zwischen den Fremdwahrnehmungen verschiedener Beobachter) hohe Diskrepanzen entstehen können, die sich - wegen der engen Kapazitätsschranken sprachlicher Kommunikation - niemals alle auf der Ebene verbaler Verständigung abbauen lassen.

Entsprechend bleibt alles ausserhalb verbaler Explikation (bzw. Explizierbarkeit) stattfindende Handeln in dem Sinne "unvollständig sozialisiert", als sich sowohl die Enkodierungs- wie die Dekodierungsprozesse einer strengen Kontrolle durch intersubjektiv verbindliche Regeln entziehen und jedes Individuum in gewissem Grade seine höchst privaten (empirisch nie eindeutig verifizierten) Auffassungen darüber aufrechterhält, wie es aussieht, sich verhält und dadurch "auf andere wirkt".

Im Verhältnis zu den wenig differenzierbaren Ausdrucksebenen persönlicher Anwesenheit und Erscheinung fungiert die Sphäre nicht-verbalen Verhaltens als hierarchisch übergeordnete Ebene der Steuerung und semantischen Spezifikation.

Beispielsweise ist die blosse Anwesenheit in einer Kirche ein in sich selbst so wenig informationshaltiges Faktum, dass man nur aus dem Kontext des dort praktizierten Verhaltens Schlüsse ziehen kann, ob touristische Neugier, ästhetisches Erlebnisbedürfnisse oder gläubige Andacht die Motive dafür bilden.

Und das öffentliche Auftreten in festlicher, schwarzer Kleidung ist ein so unspezifisches Signal, dass man nur durch Kenntnis

der im jeweiligen kulturellen Kontext geltenden Kleidungskonventionen
der aktuell vorliegenden Situation und Handlungsabsichten (z.B.: einer Beerdigungszeremonie beizuwohnen, ein Orchester zu dirigieren u.a.)

zu zuverlässigen Interpretationen gelangt.

Auf der andern Seite bildet die Sphäre nicht-verbaler Verhaltensweisen ihrerseits das fundierende Substrat für alle verbale Kommunikation. Denn niemand kann im kollokalen Interaktionsverhältnis auch nur einen Satz äussern, ohne gleichzeitig (bzw. wiederum: ein bisschen vor dem Zeitpunkt, wo der Satz vollendet und dadurch zum Gegenstand intersubjektiven Verstehens geworden ist) in Tonfall, Mimik, Modulierung, Blickweisen und Handbewegungen die situativen Rahmenbedingungen mitzuliefern, die

im physischen Sinne kausal notwendige Trägersubstrate der Sprachäusserung darstellen;
im symbolischen Sinne den semantischen Kontext mitkonstituieren, innerhalb dem sich die präzise Sinndeutung des Gesprochenen vollzieht (vgl. z.B. Poyotas 1981).

Weil eine sehr begrenzte, durch keinerlei Massnahmen wesentlich vermehrbare Zahl verschiedener motorischer Verhaltensvollzüge für eine unabgrenzbare Vielfalt verschiedener Bedeutungen in Anspruch genommen werden muss, ist jede Verhaltensweise "semantisch defizient" und verlangt nach einer sinnhaften Präzisierung, die häufig nur auf der noch ungleich differenzierbareren Ausdrucksebene sprachlicher Kommunikation gewährleistet werden kann (vgl. Kendon, 1981: 15, Freedman 1981: 151ff.).

So erhält das Fahneschwenken des Linienrichters ausschliesslich von den kodifizierten Regeln des Fussballspiels seinen Sinn; und in den Armbewegungen des zelebrierenden Priesters kann man mühelos die Vorschriften der Messliturgie wiederfinden.

Aber auch (ja: gerade) sehr komplexe, zu einer übergreifenden Moralhandlung koordinierte Verhaltensabläufe bleiben semantisch unterdeterminiert, solange man den verbalen Kontext der Weisungen, Vorschriften, Sanktionsandrohungen u.a. nicht kennt, in den sie hineingehören. So kann man zwar dem Fällen eines Baumes durchaus einen immanenten, aus dem zweckhaften Ineinandergreifen verschiedener Verhaltensvorgänge erschliessbaren Sinn abgewinnen (vgl. Weber 1972: 4); aber ohne Angabe eines verbalisierten semantischen Referenzsystems kann man nicht wissen, ob es sich dabei um die Erfüllung einer dienstlichen Vorschrift, die Urbarmachung von Neuland oder um delinquenten Waldfrevel handelt.

Die mangelhafte "immanente Verständlichkeit" der meisten Gesten rührt daher, dass im Vergleich zur grenzenlosen Mannigfaltigkeit formulierbarer Sätze und Texte nur ein begrenztes Repertoire äusserlich klar unterscheidbarer Körperbewegungen zur Verfügung steht: so dass dieselben Bewegungsmuster je nach kulturellem und situativem Kontext mit ganz unterschiedliche Ausdrucksfunktionen befrachtet werden müssen. Ganz besonders armselig ist das Arsenal der sogenannten ritualisierten Gesten, die den strengen Anforderungen genügen müssen, von jedermann ohne besondere motorische Voraussetzungen ausführbar sowie ohne besondere perzeptive Anforderungen wahrnehmbar zu sein.

Das "Lächeln", "Händchen halten", "Kopfnicken" oder "Verneigen" sind einige dieser Standardgesten, deren besondere Kompatibilität mit physiologisch-anatomischen Voraussetzungen des menschlichen Organismus dafür sorgt, dass sie in praktisch allen Kulturen vorkommen und überall für eine grosse Vielfalt verschiedener Ausdrucksfunktionen Verwendung finden (Morris/Marsh/Shaughnessy 1979; Kendon 1983: 35, Ekman/Friesen 1971).

Nur im Lichte des Gesamtkontexts einer sozialen Beziehung oder situativen Bedingungskonstellation wird beispielsweise zweifelsfrei deutlich, ob ein lang ausgehaltener wechselseitiger Blick als Ausdruck inniger Liebe, als Artikulation einer dringenden Bitte, als bedrohliche Ankündigung bevorstehender Aggressionsakte oder als erfolgreiche Vorverständigung über eine homosexuelle Kontaktnahme gewertet werden soll: und katastrophale Missverständnisse sind wahrscheinlich, wenn hinsichtlich dieses umfassenden Interpretationsrahmens diskrepante Auffassungen bestehen.

Natürlich ist es in der weiten Sphäre subinstitutioneller Interaktionen häufig der Fall, dass Verhaltensabläufe nicht nur hinsichtlich der Frage ob es Handlungen seien, sondern auch was für Handlungen es seien, zwielichtig bleiben. Auch diese Mehrdeutigkeit kann taktisch benutzt werden, um unverbindliche Initiativen zu eröffnen und jederzeit zugängliche Rückzugsmöglichkeiten zu wahren: z.B. bei einem "sphinxhaften Lächeln", das ebensogut als Zeichen für freundschaftliches Einverständnis wie für mitleidige Verachtung gewertet werden kann; oder bei einem innig-warmen Händedruck zum Abschied, der nicht nur tiefes Bedauern über die Trennung, sondern auch die Gewissheit (bzw. den Entschluss), dass es nicht so bald zu einer Wiederbegegnung kommen wird, zum Ausdruck bringen kann.

In dem Masse, wie in einem kollokalen Interaktionssystem nonverbale Kommunikationen vorherrschen, fehlt diesem die Möglichkeit, mit Hilfe autonomer, endogener Prozesse den genauen Sinn der ausgetauschten Kommunikationsakte zu spezifizieren: vor allem weil es im Gegensatz zur verbalen Ebene nicht möglich ist, zur Verständigung über diesen Sinn metakommunikative Prozesse stattfinden zu lassen.

Mit andern Worten: Kollokalsysteme bezahlen die genannten Leistungsvorteile gestischer Kommunikationen teuer damit, dass sie an Autonomie verlieren und auf den Import von Deutungsmustern angewiesen sind, die ausserhalb ihrer selbst (z.B. auf der alokalen Ebene gesellschaftlicher Institutionen) festgelegt worden sind. Je undifferenzierter und intrinsisch vieldeutiger die Körpergebärden, desto grösser ist der Bedarf an derartigen exogenen Selektionshilfen, um ihren präzisen Sinn im Interaktionssystem zu fixieren und intersubjektiv zu stabilisieren. Dies trifft in besonders hohem Masse für Körperberührungen zu, die für den Rezipienten mit physischem Schmerz und/oder einer Verletzung seiner Intimsphäre verbunden sind und deshalb Gefühle der Bedrohung und Furcht auslösen, wenn nicht genau feststeht, wie sie gemeint sind und welchen voraussehbaren Beschränkungen (in der Intensität, Zeitdauer, Häufigkeit u.a.) sie unterliegen.

So ist es verständlich, dass Ärzte, Tanzlehrer, Physiotherapeuten, Massschneider oder Polizisten ihre berufsnotwendigen Körperberührungen meist innerhalb eines relativ scharf segregierten Situationskontexts vollziehen, bei dem schon durch die Wahl der Örtlichkeit, die instrumentale Ausstattung der Behandlungsräume, durch die Berufskleidung und mannigfache andere Rahmenbedingungen der Interaktion jeder Zweifel daran ausgeschlossen ist, dass eine rein funktional-professionelle, auf die Lösung einer spezifischen Einzelproblematik ausgerichtete (und deshalb transitorische) Sozialbeziehung besteht (vgl. Heslin/Alper 1983).

Und äusserst ritualisierte Schemata von "Takt" und "Höflichkeit" müssen in Anspruch genommen werden, um sicherzustellen, dass begrüssende Umarmungen oder Abschiedsküsse keine sexuellen Konnotationen mehr enthalten oder auch nur als Ausdruck einer innigen persönlichen Freundschaft gewertet werden (Heslin/Alper 1983).

Am Beispiel taktiler Körperkontakte wird auch am besten deutlich, dass diese exogenen Situationsdefinitionen und Interpretationsmuster keineswegs nur als kognitive Orientierungsschemata (d.h. zur Präzisierung bestimmter Sinndeutungen) benötigt werden, sondern auch als normative Motivationsfaktoren, denen die Kraft zukommen muss, gewisse emotionale und verhaltensmässige "Spontanreaktionen", die teilweise wohl biologisch mitgeprägt sind, zu neutralisieren.

Die Existenz derartiger "vornormativer" Elementarreaktionen erscheint naheliegend auf Grund des empirischen Befundes, dass nur Männer, nicht aber Frauen die Berührung einer ihnen wenig bekannten Person des anderen Geschlechtes als lustvoll empfinden, und dass taktile Kontakte unter Männern - unabhängig vom wechselseitigen Bekanntschaftsgrad - als unangenehm empfunden werden (vgl. Heslin/Alper 1983).

Während verbale Äusserungen vom psychischen oder gar physiologischen Apparat ihres Erzeugers her derart wenig präformiert sind, dass ihr Sinn rein konventionell festgelegt werden kann (und sie ausserhalb solcher Konventionen keinerlei Sinn besitzen), so muss sich der konventionelle Sinngehalt nonverbaler Verhaltensweisen häufig gegen den Widerstand elementarerer Deutungs- und Reaktionsweisen durchsetzen, die sich - entweder auf Grund ihrer biologischen Prägung oder ihrer traditionalen Habitualisierung - einer zweckgerichteten, absichtsvollen Umformung entziehen.

Entsprechend muss ein höheres Mass an Sozialisation und Dauerdisziplin aufgewendet werden, um nonverbale Verhaltensweisen aus derartigen Primärbindungen zu befreien und für zusätzliche Sinndeutungen (deren Mannigfaltigkeit und Variabilität sich korrelativ zur gesellschaftlichen Gesamtdifferenzierung erhöht) verfügbar zu machen.

2.2.5 Verbale Kommunikation

Unter "kollokaler Verbalkommunikation" sollen in erster Linie Gespräche unter mitanwesenden Interaktionspartnern verstanden werden; in einem weiteren Sinne aber alle sprachlichen Ausdruckskundgaben, die Individuen in (wahrgenommener) Hör- und Sichtweite anderer vollziehen: z.B. indem sie laute Selbstgespräche führen, Vorträge oder Lesungen abhalten oder bei ihren Aesserungen in einem Telephongespräch auf zufällige Zuhörer im selben Raume Rücksicht nehmen.

Unabhängig von der genaueren Art der situativen Bedingungen oder subjektiven Intentionen sind mit dem mündlichen Sprachgebrauch spezifische sozio-strukturelle Formungen, funktionale Leistungskapazitäten und Folgeprobleme verknüpft, die in der ausgesprochen hohen Variationsfähigkeit, Intentionalität und Präzisierbarkeit sowie in den rigiden Sequentialisierungszwängen des verbalen Mediums ihre Ursachen haben.

Diese Gesetzmässigkeiten der kollokalen Rede werden am besten erkennbar, wenn man sie als eine vierte, nicht nur im metaphorischen Sinne "höchste" Ebene kommunikativer Verständigung begreift, die die Ausdruckspotentiale der drei bisher diskutierten Medien bei weitem transzendiert, andererseits aber vielfältige Bindungen an sie aufrechterhält, durch die sie sich z.B. vom telephonischen oder schriftlichen Sprachgebrauch unterscheidet.

Das Theorem der "einseitigen Fundierung" (vgl. 2.2.1) besagt, dass alle nicht-verbalen Medien der Kommunikation unabhängig von der sprachlichen Ebene funktionsfähig sind, während die Sprache andererseits sie alle voraussetzt und sich nur auf ihrer Basis und mittels ihrer konstituierenden Mitwirkung aktualisiert.

So lassen sich einerseits sehr häufig völlig "sprachlose" Kollokalverhältnisse finden, wo sich die Teilnehmer im Medium ihrer physischen Anwesenheit und äusseren Erscheinung begegnen und sich ausschliesslich mittels gestischer Kundgaben verständigen: z.B. im Strassenverkehr, wo verbale Kommunikationen aus technischen und zeitlichen Gründen meist unterbleiben, oder bei gut eingespielten Fussballmannschaften oder Operationsteams, die nur in völlig stummer Kooperation ihre maximale Reaktionsfähigkeit und Effizienz erreichen.

Während die nonverbalen interpersonellen Verhaltensabläufe und Wahrnehmungen fast voraussetzungsfrei - und deshalb äusserst kontinuierlich, kaum bemerkt und nur schwer kontrollierbar - immer weiter laufen und dem Kollokalsystem eine verlässliche, nur durch simples Weggehen zerstörbare Integrationsbasis verleihen, so bildet die Sphäre verbaler Kommunikation einen vergleichsweise schmalbrüstigen und zerbrechlichen "Ueberbau", der sich nur intermittierend auf Grund besonderer Aufmerksamkeits- und Koordinationsleistungen der Mitglieder aus dem Dauerstrom nicht-verbaler Kundgaben erhebt und auch dann oft nur einen Teil aller Anwesenden in sich schliesst (vgl. Goffman 1969:14).

Andererseits ist es eben nicht denkbar, unter Bedingungen der Kollokalität ein rein verbales Interaktionssystem zu finden, dessen Mitglieder ausser Redeäusserungen keine anderen irgendwie als informativ aufgefassten Wahrnehmungen ihrer Person aussenden würden, denn

- bevor sie sprechen, haben sie sich wechselseitig bereits als Personen aufgefasst, die in diesem Moment am selben Ort anwesend sind, auf bestimmte Weise körperlich gebaut und gekleidet sind, auf spezifische Art gehen, stehen oder sitzen und ihre Zuwendung zueinander durch Bewegungen des Kopfes, Handbewegungen, Blicke u.a. zum Ausdruck bringen

- während sie sprechen, können sie nicht anders, als ihre Rede im Medium spezifischer nicht-verbaler Verhaltensfärbungen zum Ausdruck zu bringen: Vom Tonfall der Stimme über die Allokation von Akzentuierungen und Sprechpausen bis zur dauernd lebendigen Mimik und Gliedergestik spannt sich der Bogen unvermeidlicher begleitender Ausdrucksweisen, die den sprachlichen Kommunikationsfluss dauernd begleiten und ihren Sinngehalt teils zusätzlich betonen, präzisieren oder komplementär ergänzen, teils abschwächen und auf schillernd-verunsichernde Weise mit ihm kontrastieren.

In jedem Falle werden kollokale Sprecher einander eine insgesamt komplexere, wegen ihrer Mehrdimensionalität schwerer in ein konsistentes Gesamtbild zu integrierende Informationsfülle zukommen lassen als Telephonpartner, die einander höchstens einige akustisch wahrnehmbare Begleitkorrelate vermitteln, oder gar Briefeschreiber, deren Adressaten den gesamten Sinngehalt der Botschaft aus den expliziten verbalen Formulierungen zu entschlüsseln haben.

So muss beispielsweise jeder Vortragsredner mit der Tatsache umgehen, dass er seinem Publikum unvermeidlicherweise mehr von sich mitteilt, als den von ihm verfassten und verlesenen Text (Goffman 1981: 162ff); und er muss deshalb versuchen, auch diesen zusätzlichen, ihm selbst vielleicht am allerwenigsten bewussten Strom von Ausdruckskundgaben in intentionale Bahnen zu lenken. Und wer immer in heiklen und emotionalisierten Angelegenheiten die mündliche Unterredung dem Briefschreiben vorzieht, muss damit rechnen, gleichzeitig mit dem Sinn seiner Rede auch den sie motivierenden inneren Erregungszustand zum Ausdruck zu bringen.

Vielleicht lässt sich dem zwiespältige Charakter der mündlichen Rede am besten dadurch Rechnung tragen, dass man sie als ein Interferenzphänomen zwischen einem digitalen Kommunikationsmedium (Sprache) und mehreren "analogen" Medien (persönliche Erscheinung, Gestik u.a.) konzeptualisiert:

1) Unter dem Aspekt, dass etwas gesagt wird, erscheint die gesprochene Rede als Anwendungsfall eines konventionellen sprachlichen Codes. Der digitale Charakter dieses Mediums ist allerdings nur bei schriftlichen Aeusserungen unverfälscht sichtbar, deren Sinngehalt sich vollständig aus der Wahl oder Nichtwahl bestimmter Buchstabenreihungen, Wörter, Sätze u.a. ergibt, ohne dass die Art der Drucktype, die Fleckenhaftigkeit des Papiers etc. diesen Sinn im mindesten mitbeeinflussen würden.

Auch die mündliche Rede erhält durch den Sprachcode einen "lokutionären Kerngehalt an Sinn", der allein auf etablierten Sprachregelungen und -bedeutungen beruht und durch alle spezifischen Weisen der Aussprache und Begleitgestik hindurch persistiert.

2) Unter dem Gesichtspunkt, wie etwas gesagt wird, kann man die mündliche Rede als jene spezifische Form sprachlicher Kommunikation identifizieren, die im Gegensatz zur Schrift auf analogen (d.h. kontinuierlich-variablen) Trägermedien beruht: z.B. auf der Art der Stimmführung oder der begleitenden Gesichtsmimik, mit deren subtilen Ausprägungen das Gemeinte und das Verstandene je nach der Differenziertheit des Ausdrucks- und des Wahrnehmungsvermögens kovariiert (Kendon 1981: 3f, Knapp 1983).

Für den einzelnen Sprecher entsteht aus diesem Nebeneinander zweier teils substitutiver, teils komplementärer Medien ein reiches Arsenal kombinierter Enkodierungsmöglichkeiten, denen allerdings auch entsprechend differenzierte Dekodierungsfähigkeiten seitens der Rezipienten gegenüberstehen müssen.

Die partielle Substitutivität (d.h. funktionale Aequivalenz) beider Medien eröffnet die Chance, sie wechselseitig von allzu hoher Informationsfracht zu entlasten: z.B. indem das Vorzeigen der Armbanduhr die verbale Zeitangabe oder das modellhafte Vormachen einer Arbeitshandlung ausführliche Erläuterungen ersetzt, oder indem der genauen Wortwahl und Satzformulierung weniger als im Schriftverkehr Beachtung geschenkt werden muss, weil Intonation der Stimme und begleitende Gesten den gemeinten Sinn ohren- und augenfällig machen (vgl. Goffman, 1981: 190). Genauso mag ein verbales Liebesgeständnis ein Pärchen davon entlasten, die Intensität der Beziehung allein auf dem Wege inniger Gesten zum Ausdruck zu bringen: ähnlich wie der wortreich-monologisierende Schauspieler weniger leibliche Kundgaben als der Pantomime benötigt, und der Vortragsredner durch blosse Sprechpausen jene Zäsuren deutlich machen kann, die im schriftlichen Text durch explizite Titelgliederungen bezeichnet werden müssen.

Und die komplementären Funktionsmerkmale beider Kommunikationsebenen bieten sich für eine Differenzierung des Uebermittlungsprozesses in dem Sinne an, dass die konventionelleren und expliziter kodierbaren Aspekte einer Botschaft ins verbale Medium eingekleidet werden und die personengebundenen, nur diffus ausdrückbaren oder absichtlich in ungewisser Schwebe gehaltenen Komponenten in der nicht-verbalen Sphäre verbleiben.

Vor allem kommt den gestisch-mimischen und akustischen Begleitkundgaben sehr häufig die Aufgabe zu, simultan mit der lokutionären Botschaft metakommunikative Informationen über ihre illokutionäre Zielrichtung mitzuliefern: z.B. wenn die Ernsthaftigkeit einer Mahnung im gemessenen oder schneidenden Charakter der Stimmführung ihre Unterstützung findet, hinter der geäusserten Bitte ein verzweiflungsvoller Hilfeschrei durchschimmert oder wenn heiter-schmunzelnde Untertöne die Ironie in einer - an sich völlig sachneutral formulierten - Aeusserung deutlich machen.

Einer der - wenig thematisierten - unbestrittenen Vorzüge "persönlicher Begegnungen" gegenüber fernmündlichem oder schriftlichem Verkehr liegt ohne Zweifel darin, dass derartige illokutionäre Spezifikationen

- simultan mit der verbalen Aeusserung geliefert werden, während sie z.B. bei Briefen dem Referenztext (als metakommunikative Verbalexplikationen) vor-, zwischen- oder nachgestellt werden müssen;

- mit Hilfe eines überaus reichen Arsenals beliebig abstufbarer Ausdrucksweisen kommunizierbar sind, während im Sprachcode dafür nur wenige, relativ standardisierte Formeln zur Verfügung stehen;

- im Interesse der Offenheit und Flexibilität des Gesprächsfortgangs relativ unverbindlich und in ihrer Bedeutung unbestimmt gehalten werden können: während Schriftlichkeit den Zwang in sich schliesst, sich explizit und irreversibel festzulegen und dem Emittenten die Rückzugsmöglichkeit entzieht, "es in Wirklichkeit nicht so gemeint zu haben." (vgl. Kendon 1981:13f; Luhmann 1972).

Zu den häufigsten und unentbehrlichsten illokutionären Begleitgesten des mündlichen Gesprächs gehören die Blicke, die nicht nur über die Intentionen oder emotiven Regungen des Sprechers subtile Auskunft geben, sondern vor allem auch zum Ausdruck bringen, an welche(n) Adressaten sich die Rede überhaupt richtet. Im Unterschied zum Telephon- oder Briefkontakt ist die mündliche Rede nämlich in sozialer Hinsicht äusserst unselektiv: weil sie für alle in akustischer Reichweite befindlichen Personen in derselben Weise vernehmlich ist und es auch durch Variation der Stimmlage oder andere intramediale Manipulationen nur sehr beschränkt möglich ist, gemeinte von nicht gemeinten Adressaten zu differenzieren (vgl. Goffman 1981: 131ff.).

Dank seiner Eigenschaft, ein wahrnehmbarer Wahrnehmungsakt zu sein (vgl. 3.5), kann der Blick diese Funktion personeller Fokussierung aufs Beste erfüllen, weil er

1) dem Adressaten simultan mit dem Redeakt selbst sichtbar macht, dass er gemeint und zum aufmerksamen Zuhören aufgefordert ist;

2) dem Sprecher gleichzeitig die Möglichkeit öffnet, die gestischen Reaktionen des Adressaten auf seine Rede zu beobachten und daraus Schlüsse auf seine perlokutionären Wirkungen zu ziehen.

Allerdings stellt das Anblicken ein allzu grobschlächtiges und unzuverlässiges Medium dar, um bei einem grösseren Kreis von Anwesenden Gemeinte und Nichtgemeinte säuberlich zu trennen. Denn weil der Sprecher (wie z.B. der Lehrer im Schulzimmer) immer irgendwohin blicken muss, können sich bestimmte Einzelne selbst von unfokussierten Bemerkungen "persönlich angesprochen" fühlen; und weil man (besonders bei räumlicher Nähe) oft nicht gut mehrere Personen gleichzeitig ins Auge fassen kann, tendieren Gesprächskontakte oft zu einem Grad an Bilateralisierung, der dem lokutionären Gehalt und der illokutionären Zielrichtung des Gesprochenen in keiner Weise entspricht. Interessant wäre die Frage, wie interagierende Blinde mit dem Problem umgehen, dass sie keine Mechanismen visueller Partnerfokussierung zur Verfügung haben, oder wie Taubstumme das entgegengesetzte Problem bewältigen, dass sich ihre rein visuelle Kommunikation vielleicht in allzu dyadischen Bahnen vollzieht.

Wenn man die Perspektive über einzelne Sprechakte hinaus auf das kollokale Sozialsystem als Ganzes erweitert, so fällt auf, dass sich interpersonelle Gesprächsabläufe als dichtgewobenes Netzwerk verbaler und nicht-verbaler Kommunikationsakte konstituieren (Goffman 1981: 7). Völlig normal ist beispielsweise, dass deutliches Kopfnicken oder Kopfschütteln als hinreichend klare Antwort auf eine explizite verbale Frage hingenommen wird, der phantasievolle Erzähler durch die ungläubige Miene seiner Zuhörer davon abgehalten wird, sein Seemannsgarn weiterzuspinnen, oder dass (wie z.B. im Restaurant oder beim Taxifahren) Handzeichen genügen, um eine räumliche Annäherung und verbale Interaktionssequenz auszulösen.

Selbst im intensivsten und explizitesten Gespräch scheinen nicht-verbale Zusatzkommunikationen keineswegs entbehrlich zu werden, sondern - im symbiotischen Funktionsverhältnis mit der verbalen Ebene - an Bedeutung eher noch zu gewinnen (Kendon 1983: 17). Ein Hauptgrund dafür liegt in der äusserst folgenschweren Tatsache, dass Gesten nicht im selben Masse wie Sprechakte den rigiden Zwängen temporaler Sequentialisierung unterworfen sind: so dass sie von beliebigen Teilnehmern zu beliebigen Zeitpunkten emittiert werden können, ohne den ordentlichen Fortgang des Gesprächsablaufs zu unterbrechen (Goffman 1981: 28).

So kann ein Sprecher noch während seiner Rede aus den Gesten seiner Zuhörer entnehmen, wie sie auf seine Aeusserungen reagieren, und diese Informationen für die Strukturierung oder Umorientierung seiner weiteren Sprechabsichten verwenden: z.B. indem er angesichts sich verhärtender Mienen von einer allzu drastischen Forderung Abstand nimmt oder durch interessebekundende Blickzuwendungen dazu veranlasst wird, auf ein probeweise angesprochenes Thema ausführlicher einzutreten.

Diese selben Gesten bilden auch das Medium, mit denen die Zuhörer einander über ihre Reaktionen auf Gesprochenes informieren. In vielen grösseren Gruppen und/oder bei sehr asymmetrisch verteilten Redechancen (z.B. bei Vorträgen) ist es für die meisten Teilnehmer überhaupt die einzig zugängliche Möglichkeit, aktiv in den Kommunikationsprozess zu intervenieren (Goffman 1981: 12).

Eines der vielen Handikaps telephonischer Gespräche besteht darin, dass der verbale Kommunikationsprozess allzu leicht "unterdeterminiert" bleiben und unkontrolliert in die Irre gehen kann, weil kein ihn begleitender Feed-back-Mechanismus wirksam ist, um Führung und korrektive Steuerung auf ihn auszuüben. Denn die Adressaten sind genötigt, alle ihre Reaktionen erst nach vollendeter Rede und völlig auf derselben verbalen Ebene mitzuteilen: was nicht nur unerträgliche Zeitverluste mit sich bringt, sondern es zudem fast unmöglich macht, den Gesprächskreis auf mehr als zwei Teilnehmer zu erweitern.

Die mangelnde Verselbständigung der verbalen gegenüber der nicht-verbalen Kommunikation hat generell zur Folge, dass das Ausdrucksmedium "Sprache" in kollokalen Sozialsystemen unterbenutzt und unterdifferenziert bleibt: weil es angesichts der leichten Zugänglichkeit eines zweiten "Sendekanals" selten nötig ist, die auf verbalem Niveau verfügbaren Auserucksmöglichkeiten voll auszuschöpfen (vgl.2.2.4).

In methodologischer Hinsicht muss man daraus folgern, dass sich Kommunikationsprozesse unter Bedingungen der Kollokalität nur dann sinnvoll analysieren lassen, wenn man verbale und nicht-verbale Verhaltensweisen als zwei völlig gleichwertige, einander wechselseitig präzisierende Ausdrucksebenen einbezieht. Selbst im elementarsten kommunikativen Einzelakt sind beide Medien in subtilster Weise miteinander verwoben, und wer immer sich ausschliesslich an den verbalen Aspekten (z.B. in der Form von Tonbandaufnahmen oder schriftlichen Gesprächsprotokollen) orientiert, wird nur unzusammenhängende Bruchstücke eines nicht mehr rekonstruierbaren kommunikativen Gesamtprozesses in Händen halten (Goffman 1981: 33).

Im Vergleich zu allen nicht verbalen Kommunikationsmedien ist für die Sprache charakteristisch, dass

a) in Termini desselben Codes beliebig verschiedenartige Varianten gebildet und unendlich viele semantische Inhalte enkodiert werden können,

b) die erzeugbaren Varianten eine hohe Spezifität aufweisen: indem sie sich mindestens bezüglich ihrer äusseren Form, vielfach aber auch hinsichtlich ihres Sinngehalts präzise voneinander unterscheiden.

Vor allem ist es nur mit Hilfe der Sprache möglich, die Sphäre des Situativ-Gegebenen und des Positiv-Faktischen zu verlassen, weil man mit demselben Grad an Präzision, mit dem man über Anwesend-Gegenwärtiges spricht, auch über Abwesendes, Vergangenes und Zukünftiges, über das nur Mögliche und Imaginierte, ja sogar über das völlig Unmögliche reden kann.

Ohne verbale Verständigung würde das soziale Zusammenleben der Menschen wahrscheinlich viel stärker von aktuellen Situationsbedingungen und unmittelbar erlebten interpersonellen "Wechselwirkungen" bestimmt, weil kein Medium verfügbar wäre, um dem realen Aktualverhalten Masstäbe des Erwartens, des normativ Geforderten, des traditionell Geltenden oder des zukünftig Angestrebten gegenüberzustellen.

So sehen sich kollokale Individuen der Situation gegenüber, dass die Möglichkeiten des Sprechens zu jedem Zeitpunkt viel reichhaltiger sind, als die Möglichkeiten, nicht-verbale Verhaltensstimuli, "Wahrnehmenslassungen" der persönlichen Erscheinung zu emittieren (vgl. Luhmann 1972:51ff.). Entsprechend sehen sie sich in ihrer Rolle als Gesprächsteilnehmer einer ausserordentlich komplexen, ihre Aufmerksamkeit voll absorbierenden doppelten Problemsituation gegenüber:

1) Als Zuhörer müssen sie das Problem der Unvorhersehbarkeit bewältigen, das sich aus dem höchst variablen, eigenselektiven Redeverhalten anderer Sprecher ergibt: indem sie eine generalisierte Bereitschaft zur Rezeption (bzw. auch Beantwortung) inhaltlich und formal beliebiger Aeusserungen aufrechterhalten. Diese "Offenheit für Beliebiges" wird allerdings erleichtert dadurch, dass das "Beliebige" immer im Kleid eines konventionellen Codes und in einer präzisen, zweifelsfrei identifizierbaren Formulierungsweise erscheint.

2) Als Sprecher müssen sie sich dem Problem der Selektivität stellen, das sich aus der Differenz zwischen der unendlichen Mannigfaltigkeit möglicher und dem dünnen Rinnsal aktualisierbarer Sprechakte ergibt , so dass sie für vielfältigste Orientierungshilfen (introspektiver, sozialer und kultureller Art) empfänglich sind, um ihre (sich von Zeitpunkt zu Zeitpunkt ständig regenerierende) Unsicherheit zu reduzieren. Dieses Selektionsproblem wird zwar einerseits ebenfalls dadurch erleichtert, dass die Alternativen aus einem Pool "vorkonfektionierter" Einzelkomponenten und Kombinationstypen ausgewählt werden können, andererseits aber wird es durch den genannten "Präzisierungszwang" aller verbalen Aeusserungen beträchtlich erschwert. Ist es in der nicht-verbalen Kommunikationssphäre durchaus möglich, eine Geste nur ansatzweise oder dermassen mehrdeutig zu vollziehen, dass sie die innerpsychischen Unentschiedenheiten im Zustand eines Aktors widerspiegelt, so sehen sich sprechende Individuen meist zu einem Grad an Spezifizierung genötigt, der der Diffusität ihrer Stimmungslage oder der Unsicherheit ihrer Urteile oder Absichten in keiner Weise entspricht.

Natürlich gibt es haufenweise Illustrationsbeispiele für den erfolgreichen Versuch, die der verbalen Kommuniktion immanente Komplexität durch Massnahmen sozialer Kontrolle, Standardisierung und Ritualisierung zu reduzieren: bis hin zum Extremfall verfestigter Zeremonien (z.B. in der katholischen Messliturgie), wo jegliche Ungewissheit darüber eliminiert ist, wer wann was in welcher Sprechweise sagt.

Die interessanten Fragen einer "Soziologie des Gesprächs" profilieren sich aber erst bei der Thematisierung jener - viel häufigeren - Situationen verbaler Kommunikation, in denen derartige Reduktionsmechanismen nur teilweise wirksam sind (z.B. bei themengebundenen Verhandlungen und Diskussionen) oder überhaupt keine Bedeutung haben (z.B. bei "freier Konversation" im geselligen Kreise). Derartige unnormierte Gesprächssituationen stellen für die soziologische Theorie eine der grössten Herausforderungen dar: weil sich hier schärfer als irgendwo sonst die Frage stellt, wie Individuen angesichts der hohen Kontingenz ihres Verhaltens und der hohen doppelten Kontingenz ihrer Wechselwirkungen dennoch in der Lage seien, erwartungssicher miteinander umzugehen und zur Bildung einer stabilen Sozialordnung zu gelangen.

Unter dem äusserst generellen Konzept der "Temporalisierung" können jene Mechanismen subsumiert werden, die alle die gemeinsame Funktion haben, die unerträglich hohe Komplexität, der sich Sprecher und Zuhörer in der Gesprächssituation gegenüber sehen, in Grenzen zu halten, ohne gleichzeitig ihre Freiheiten und Variationsspielräume zu vernichten und die "Offenheit für Beliebiges", die das funktionale Spezifikum des verbalen Kommunizierens ausmacht, irreversibel einzuengen.

Die Gemeinsamkeit aller Temporalisierungsstrategien besteht darin, eine bestimmte Fülle von Ereignissen, Zuständen, Alternativen u.a. über breitere Zeitspannen zu verteilen: um jeden einzelnen Zeitpunkt von allzu hoher Komplexität zu entlasten. Wir haben bereits gesehen, dass in der kollokalen Situation nur die beiden zuständlichen Trägermedien "Anwesenheit" und "körperliche Erscheinung" die Eigenschaft haben, den Rezipienten zu jedem Zeitpunkt mit der Gesamtheit aller von ihnen transportierten Ausdruckskundgaben zu konfrontieren: während die nicht-verbalen Verhaltensweisen bereits so variationsfähig (wenn auch noch oft repetitiv) sind, dass sie zur Ausführung selbst Zeit benötigen und zudem sequentiell hintereinandergereiht werden müssen (vgl. 2.2.4 ).

In noch viel höherem Masse gilt für verbalisierende Interaktionspartner, dass sie ihre immensen Gewinne an kommunikativen Variations- und Spezifizierungsmöglichkeiten mit umso härteren Bindungen an die unvermeidlich ablaufende Zeit (mit ihren grausamen Eigenheiten, unvermehrbar zu sein und irreversibel voranzuschreiten) bezahlen.

Zur Bewältigung der temporalen Folgeprobleme müssen leistungsfähige Mechanismen sozialer Differenzierung, Koordination und Kontrolle entwickelt werden, in denen sich die (von personellen, situativen und kulturellen Gegebenheiten völlig unabhängige) auswegslose Unerbittlichkeit zeitlicher Restriktionen widerspiegelt.

a) Die diachrone Ausdifferenzierung des Gesprächsystems als Ganzes

Während die Teilnehmer an völlig nicht-verbalen Interaktionsprozessen in gewissem Umfang ihre je eigenen Aufmerksamkeitsschwerpunkte aufrechterhalten und ihren ganz persönlichen Zielen nachgehen können (z.B. im Strassenverkehr oder während routinehafter Kooperationen), so bilden die Teilnehmer eines gemeinsamen Gesprächs im anspruchsvolleren Wortsinne ein "soziales System", das sich scharf gegenüber

- der je eigenen Umwelt jedes individuellen Teilnehmers

- der übrigen gemeinsamen Umwelt aller Teilnehmer zusammen scharf differenziert.

Ganz anders als z.B. bei formalen Organisationen wird diese Ausdifferenziertheit nicht durch explizite formale Normen oder durch physische Artefakte (wie z.B. Gebäude, Räumlichkeiten u.a.) garantiert, sondern notwendigerweise vom psychischen System der individuellen Teilnehmer getragen: indem jeder seine volle Aufmerksamkeit auf den Gesprächsprozess fokussiert und dadurch, dass er sich gegenüber anstürmenden inneren oder äusseren Störungen und Ablenkungen unempfindlich macht, zum Erhalt des inselhaft ausgegrenzten Interaktionsgebildes einen unerlässlichen persönlichen Beitrag leistet (vgl. Goffman 1981: 70ff.);

"Wenn die andere Person die Einladung zum Dialog akzeptiert hat, ist ihre Lebenssituation mit einem Schlage völlig transformiert. Die zwei Teilnehmer lassen alle ihre übrigen Beschäftigungen und Bekümmernisse in dem Augenblick hinter sich, wo die Stille in Sprechen übergeht. In diesem Moment werden sie Bewohner einer eigenen, nur für sie existierenden sozialen Welt, die allein durch Kommunikationsakte erzeugt und permanent verändert wird." (Rommetveit 1974:23).

Denn nur indem alle ihre übrigen Beschäftigungen und Gedanken temporär zurückstellen und sich gegenüber themenfremden Objekten und Ereignissen desensibilisieren, können sie die hinreichende Konzentration aufbringen, um

a) sich gegenüber der Fülle unvoraussehbarer Sprechakte Anderer aufnahme- und reaktionsbereit zu halten,

b) unter Einbezug dessen, was von andern gesagt wurde und was sie selber sagen möchten, ihre eigenen Gesprächsbeiträge zu spezifizieren,

c) für die Einhaltung der anspruchsvollen Verfahrensregeln (z.B. zur Allokation von Sprecherrollen, Zuteilung von Redezeit, Sanktionierung von Themenabschweifungen u.a.) zu sorgen, ohne die kein ordentlicher Gesprächsablauf vorstellbar ist.

So konstituieren sich Gesprächssysteme wegen ihres hohen Bedarfs an konvergierender Aufmerksamkeit als überwiegend innenorientierte, von endogenen Triebkräften bestimmte Sozialsysteme, die nach aussen hin nur auf Insulierung und Abschirmung bedacht sind und deshalb über keine freien Valenzen verfügen, um sich in umfassendere soziale Kooperationszusammenhänge einzubinden oder flexibel auf unerwartet auftretende exogene Problemfälle zu reagieren.

Keine Frage, dass derartige Zustände sowohl vom Standpunkt der Teilnehmer her wie auch auf Grund situativer Restriktionen nur während limitierter Zeitperioden aufrechterhalten werden können: solange, bis z.B. Familien- oder Arbeitspflichten rufen, Hunger- und Durstgefühle zum Abbruch der Sitzung nötigen, andrängende Zukunftssorgen dem aktuellen Gesprächsthema Relevanz entziehen oder das Bedürfnis wächst, durch Beendigung des jetzigen Gesprächs Valenzen für anschliessende andere Gespräche freizumachen.

Je nach ihren Potentialen zur inneren Strukturdifferenzierung einerseits und zur äusseren Umweltadaptation andererseits unterscheiden sich menschliche Gesellschaftsformationen wie auch einzelne ihrer Subsysteme (Institutionen, Organisationen Gruppen) danach, welche Entfaltungsspielräume sie für derart "asoziale", eigensinnig ihrer endogenen Prozesslogik folgende Systeme verbaler Kommunikation zur Verfügung stellen können.

Solche Nischen expandieren beispielsweise in dem Masse, als es infolge technischer oder sozio-ökonomischer Entwicklungen besser möglich wird,

- Individuen aus Bindungen an physische Verhaltensrestriktionen und rigide soziale Kooperationszwänge zu entlassen,

- verbalisierende Kollokalgruppen durch optimale physische Randbedingungen (schalldämmende Raumwände, moderierte Zimmertemperaturen, Kaffee-Ausschank in Sitzungspausen u.a.) während längerer Zeitphasen von Irritationen und Ablenkungen abzuschirmen.

Umgekehrt sind Gespräche in modernen, urbanen Kontexten auch viel leichter zu destabilisieren: weil es bei Individuen mit besonders zahlreichen Bekanntschaften, Rollenpflichten, Interessen und Tätigkeitsschwerpunkten wahrscheinlicher ist, dass jedes begonnene Gespräch relativ rasch an irgendwelchen konkurrierenden Aufmerksamkeitsschwerpunkten der Teilnehmer seine Grenzen findet.

Wann immer ein Gespräch eröffnet oder abgebrochen wird, pflegen Individuen eine drastische Umorientierung ihres Aufmerksamkeitsfeldes zu vollziehen und - ähnlich wie bei der Uebernahme oder Aufgabe einer organisationellen Mitgliedschaftsrolle - eine diskontinuierliche Schwelle von einer sozialen Ordnung in eine andere zu überschreiten. Diese Passage den Teilnehmern selbst, ihren Partnern wie auch umstehenden Dritten explizit zu machen, ist die Funktion von sogenannten "Einrahmungsritualen", die den Gesprächsbeginn durch eine Form von Begrüssung und das Gesprächsende durch eine ebenso rituelle Form des Abschieds markieren (vgl. Goffman 1981:20/21).

Durch Einklammerung zwischen derart standardisierte, praktisch voraussetzungsfrei vollziehbare und wahrnehmbare Ritualhandlungen wird das Gespräch als zeitlich limitiertes Sozialsystem scharf herausgehoben: so dass

- die Beteiligten konsensual erkennen, innerhalb welchen Zeitraums sie sich im Zustande sprunghaft gesteigerter aufmerksamer Zuwendung und kommunikativer Erreichbarkeit befinden,

- jeder Teilnehmer sich bewusst wird, von welchem Zeitpunkt an er berechtigt ist, seine Aufmerksamkeit aus dem Gesprächssystem abzuziehen und auf andere Anliegen hinzuwenden,

- am Gespräch unbeteiligte Dritte erkennen, wann Gesprächssysteme ihre Teilnehmer aus sich entlassen und wieder für andere Beschäftigungen und Kommunikationen verfügbar machen.

Am Vergleich mit schriftlicher Kommunikation kann man sich zusätzlich klarmachen, warum kollokale Gesprächssysteme die Aufmerksamkeit ihrer Teilnehmer in derart umfassender und rigider Weise absorbieren, dass man sie restriktiven zeitlichen Limitierungen unterwerfen muss, um sie mit den übrigen Aktivitäten und Rollenanforderungen kompatibel zu machen.

Einer der grössten Vorzüge der Schriftlichkeit besteht darin, dass Enkodierungs- und Dekodierungsprozesse gegeneinander verselbständigt werden. Ein Text kann zu beliebigen Zeitepunkten nach seiner Niederschrift gelesen und wiedergelesen werden; der Rezipient verfügt autonom darüber, wie schnell er liest, welche Passagen er Wort für Wort und welche anderen er nur summarisch zur Kenntnis nimmt, und vor allem verfügt er über die Möglichkeit, nach Bedarf wieder an beliebige Ausgangs- oder Zwischenpunkte seiner Lektüre zurückzukehren: z.B. um eine schwer verständliche Formulierung nochmals durchzugehen oder demselben Text im Lichte veränderter Informationen oder Situationsbedingungen neue Bedeutungen abzugewinnen.

Weil sie jederzeit zur Verfügung stehen, können Texte in residualen Zeitnischen gelesen werden, in denen die Rezipienten ohnehin keine anderen Verpflichtungen haben: und es kann dadurch ein höheres absolutes Ausmass an verbaler Kommunikation aufrechterhalten werden, ohne dass andere Aktivitätsfelder darunter leiden.

In der kollokalen mündlichen Rede hingegen sind Enkodierungs- und Dekodierungsprozesse

a) hinsichtlich des absoluten Zeitpunktes, zu dem sie stattfinden

b) hinsichtlich der relativen sequentiellen Anordnung, in der die verbalen Akte aufeinander folgen

starr miteinander gekoppelt: indem die Zuhörer genau jetzt genau dies hören müssen, was der Redner ihnen sagt.

Auch bei translokaler mündlicher Kommunikation lässt sich (wie z.B. bei Tonbandaufnahmen) meist nur die Bindung an den absoluten Zeitpunkt aufheben: so dass spätere Hörer genötigt sind, einfach zeitversetzt dieselbe starre Sequentialität des Gesprochenen zu akzeptieren.

Diese erzwungene Koppelung von Enkodierung und Dekodierung ist der Hauptgrund, warum Individuen durch ihre Teilnahmerolle am Gespräch derart absorbiert sind, dass sie kaum mehr freie Valenzen für andere Rollentätigkeiten besitzen, denn

- der Zuhörer muss der voranschreitenden Rede gerade jetzt ungeteilte Aufmerksamkeit entgegenbringen: weil er im Falle überhörter oder missverstandener Passagen kaum mehr die Möglichkeit hat, sein Verständnismanko später wettzumachen;

- der Redner muss gerade jetzt überlegt, deutlich und unmissverständlich sprechen, um in einer von ihm intendierten Weise verstanden zu werden.

So erweisen sich kollokale Gesprächssysteme als eine Art "soziale Klumpengebilde", bei denen

- im Innenverhältnis keine funktionalen Spezialisierungen oder Subsystemdifferenzierungen erfolgen können, weil die Aufmerksamkeitsfelder aller Teilnehmer starr in einem einzigen, unteilbaren Fokalpunkt konvergieren;

- im Aussenverhältnis keine Einfügung in umfassendere Kooperationszusammenhänge gelingt, weil die engagierten Teilnehmer über zu wenig frei flottierende Aufmerksamkeitspotentiale verfügen.

Sie repräsentieren typischerweise eine "Sackgasse der sozialen Evolution", weil von ihnen aus kein Weg mehr weiter zu höher differenzierten, auf einer grösseren wechselseitigen Verselbständigung ihrer Komponenten beruhenden, Entwicklungsstadien führt. Die immense evolutionäre Bedeutung der Schrift besteht dementsprechend genau darin, verbale Kommunikation mit wachsender Heterogenität, wechselseitiger Autonomie und unvorhersehbarer Variation (von Emittenten und Rezipienten) kompatibel zu machen.

b) Das "Thema" als diachron variierendes Strukturelement

Wenn Individuen ihr Wahrnehmungsfeld auf äussere Objekte und Ereignisse ausrichten, finden sie dort physisch bedingte Invarianzen und Berechenbarkeiten vor, die ihnen die Auswahl und zeitweilige Stabilisierung eines gemeinsamen Aufmerksamkeitsschwerpunkte erleichtern.

Wenn ich z.B. weiss, dass draussen ein Gewitter aufzieht, das Ladengeschäft nur Orientteppiche verkauft oder mein Freund Georg die Waldstein-Sonate übt, bin ich auf Grund exogen reduzierter Komplexität davon entlastet, mein begrenztes Aufmerksamkeitsfeld anderen als diesem einen Thema zuzuwenden. Weil ich nicht in generalisierter Weise für inhaltlich Beliebiges offen sein muss, bin ich umso besser in der Lage, mich für die spezifischeren Unvorhersehbarkeiten innerhalb meines sachlich begrenzten Wahrnehmungsbereichs offen zu halten und vertiefende Kenntnisse (über den Verlauf des Unwetters, die Qualität der Teppiche, Georgs Fortschritte beim Sonatenspiel u.a.) zu akkumulieren.

Nur wenn es sich bei den Erlebnisinhalten um verbale Kommunikationsakte handelt, ist diese Gewissheit, dass stabile Umweltbedingungen stabile Themenhorizonte ermöglichen, im Prinzip aufgehoben: denn im Medium der Sprache ist es widerstandslos möglich, in rascher Folge völlig verschiedenartige Sachinhalte zu thematisieren: ohne dass im aktuellen Thema im geringsten präjudiziert wäre, was als nächstes oder übernächstes folgt.

In Gesprächen ohne jegliche Themenkontrolle würden die Teilnehmer wohl ein in ihrer ganzen übrigen Erfahrungswelt nirgends vorfindbares Mass an Unsicherheit erfahren und zu einem vielleicht aus anthropologischen Gründen unerreichbaren Grad an mentaler Flexibilität genötigt.

Die Themenspezifikation muss aber hier als endogene Leistung des sozialen Systems selbst erzeugt werden, weil sie sich nicht aus exogenen Restriktionen der realen Welt selber ergibt, und stellt eine temporäre strukturelle Festlegung dar, über die das soziale System selber autonom verfügt.

Wenn Gesprächssysteme sich durch Fixierung und Variation von Themen selbst steuern, so erhält ihr Kommunikationsprozess einen charakteristischen Aspekt der hierarchischen Differenzierung: weil man Sprechbeiträge nun danach unterscheiden muss, ob sie sich nur als subordinierte Voten zu einem bereits feststehenden Gesprächsthema verstehen, oder ob es übergeordnete Steuerungsvoten sind mit dem Zweck, auf die Festlegung und zeitliche Sequenzierung von Themen Einfluss zu nehmen.

Um Themen verbindlich zu fixieren und um ihre Geltung (gegenüber konkurrierenden Themen, undisziplinierten Abschweifungen u.a.) zu verteidigen, sind im verbalen Kommunikationssystem Führungsleistungen notwendig, die mehr oder weniger ungleich von den verschiedenen Teilnehmer erbracht werden können. Beim zentralisierten Steuerungsmodus ist es eine autoritativ herausragende Einzelperson (z.B. ein "Diskussionsleiter"), der das Thema vorgibt und Abweichungen sanktioniert; beim halbzentralisierten Modus ist es das horizontale Netzwerk der Teilnehmer, innerhalb dem sich Themenkonsens und wechselseitige Sozialkontrolle aktualisiert; und beim dezentralisierten Modus (etwa bei geselliger Konversation) wird die Themenwahl beliebigen, sich selbst seligierenden Einzelnen überlassen, die die Initiative früher als andere an sich reissen, oder zufällige Redepausen für einen selbstgewählten Themenwechsel ausnutzen.

In jedem Fall ergeben sich zwischen den Kommunikationsbeiträgen der verschiedenen Mitglieder qualitative Differenzierungen und Relevanzunterschiede, die es selbst bei völliger Gleichverteilung der Redechancen und Sprechzeiten unmöglich machen, eine völlig egalitäre, "herrschaftsfreie" Diskurssituation zu erzeugen. Ein gewisser Egalitarismus lässt sich höchstens unter der Bedingung erreichen, dass die Funktion der Themensteuerung völlig an eine externe Instanz (z.B. eine Institution, die den Diskussionsgegenstand vorgibt) übergeht, so dass die Gesprächsteilnehmer wenigstens in der Hinsicht, dass keiner von ihnen auf die Thematik Einfluss hat, eine homogene, von ungleich verteilten Einflusschancen freie Gruppe bilden.

Wegen ihrer asymmetrisierenden Strukturwirkungen kommen die Prozesse der Themenfixierung am wenigsten mit den übrigen sozialen Bedingungen eines Gesprächssystems in Konflikt, wenn ohnehin sehr ungleiche Redechancen bestehen: z.B. bei Referaten, wo der eine Redner zusammen mit allen übrigen Prärogativen meist auch die Autonomie hat, über sein gesamtes Thema oder über die Allokation von Redezeit auf verschiedene inhaltliche Schwerpunkte zu entscheiden.

Wenn aber die Teilnahmechancen dermassen breit gestreut sind, dass die meisten oder alle Mitglieder sowohl als Sprecher wie als Zuhörer fungieren, ergeben sich Diskrepanzen und Spannungen, die auch besondere strukturelle Lösungen (sowie eine partielle Lockerung der Themenkontrolle) notwendig machen.

Zum Verständnis dieser Problematik muss man sich vergegenwärtigen, dass die Teilnahme an reziproker Gesprächskommunikation die Fähigkeit und Willigkeit voraussetzt, eine anstrengende und widerspruchsvolle Doppelrolle zu übernehmen:

1) Als aktueller Zuhörer ist man laufend damit befasst, dem Reden anderer aufmerksam zuzuhören: um ihre Erwartungen, vernommen und verstanden zu werden, zu erfüllen, und um nachher auf das Gesagte reagieren zu können.

2) Als zukünftiger Sprecher ist man davon absorbiert, sich über eigene Standpunkte klar zu werden und seinen eigenen nächsten Gesprächsbeitrag in Gedanken vorzuformulieren.

Jede diese Tätigkeiten tendiert dazu, die gesamte Aufmerksamkeit zu absorbieren, und immer besteht deshalb das Dilemma, dass man entweder durch den Zwang zum ununterbrochenen Zuhören an der Konzipierung komplexerer Eigenbeiträge behindert ist, oder dass man umgekehrt kaum mehr zuhört, weil die Vorbereitung des nächsten Votums (vor allem wenn es sich um relativ verbindliche, folgenschwere Stellungnahmen handelt) völlige Konzentration erfordert.Verschiedene Typen der Gesprächsgestaltung lassen sich nun danach klassifizieren, auf welche Weise sie diese widerstrebenden Orientierungen in ein gewisses Gleichgewicht zueinander bringen:

Bei der offenen geselligen Konversation zum Beispiel entsteht das Gleichgewicht dadurch, dass die Teilnehmer mehr auf die Rezeption fremder als auf die Konzeption eigener Redebeiträge verwiesen werden: weil ja jedem Teilnehmer das Recht zu "Ausschweifungen" und autonomem Themenwechsel zugestanden wird. Der Mangel an "Eigenplanung" ist aber tolerierbar, weil keine verbindlichen oder differenziert durchformulierten Aesserungen erwartet werden und es nicht nötig ist, an irgendeinem akkumulativen "Gesamtprodukt" des Gesprächsprozesses mitzuwirken (vgl. Simmel 1911).

Bei zweckorientierten Diskussions-, Beratungs- oder Verhandlungsprozessen ergibt sich das Gleichgewicht umgekehrt eher so, dass jeder Teilnehmer vorrangig mit seinen eigenen (teilweise allerdings vorbereiteten und ihn deshalb nicht mehr so absorbierenden) Stellungnahmen beschäftigt ist, und deshalb für das Zuhören nur wenig Aufmerksamkeit erübrigen kann. Ein gewisser Mangel an kommunikativer Sensivität ist hier aber durchaus tolerierbar: weil jeder seine Redebeiträge direkt auf das stabil vorgegebene Thema beziehen kann und deshalb wenig darauf verwiesen ist, sie nahtlos an die Aussagen seiner Vorredner anzuschliessen

c) Die diachrone Allokation von Sprecherrollen

Die dritte, für die soziale Binnenorganisation von Gesprächssystemen besonders folgenschwere Form der Temporalisierung ergibt sich daraus, dass Zuhörer nicht gut in der Lage sind, gleichzeitig den Redeäusserungen mehrerer Sprecher zu folgen. Vielmehr neigen sie selbst im grössten Stimmengewirr dazu, ihre Aufmerksamkeit auf einen einzigen Redner zu fokussieren, um es danach (meist erst, wenn dessen Äusserungen zu einem verständlichen Abschluss gelangt sind) ruckartig einer andern Person zuzuwenden.

Ein derart selektives Anpeilen einzelner (unter oft anstrengender Zurückstellung oder Ignorierung aller andern) Gesprächsteilnehmer ist aus zwei Gründen völlig unvermeidlich:

1) Während die visuelle Wahrnehmung simultan eine Fülle höchst verschiedenartiger Erlebnisinhalte und Gestalteindrücke vermittelt, ist das Gehör bald überlastet, wenn zum selben Zeitpunkt zahlreiche Reizqualitäten rezipiert und verarbeitet werden müssen (vgl. Simmel, 1908: 487). So stehen auch alle nicht-verbalen akustischen Transmissionen (z.B. musikalischer Art) unter der harten Restriktion, dass höchstens drei oder vier simultane Emissionsqualitäten (z.B. Instrumente, harmonische Tonkombinationen oder polyphone Stimmen) differenzierbar sind, und dass deshalb Zeit in Anspruch genommen werden muss, um eine bestimmte Mannigfaltigkeit von Stimuli (die auf einem Gemälde alle simultan gegenwärtig und mit einem einzigen Blick erfasst werden können) zu transportieren.

2) Beim akustischen Sonderfall der verbalen Kommunikation kommt hinzu, dass Zuhörer sich gegenüber einer unabsehbaren Vielfalt unvorhersehbarer Botschaften offenhalten müssen, die - im Unterschied zu musikalischen Darbietungen - zudem auf ihren objektiven und subjektiv gemeinten Sinn hin abgefragt werden müssen.

Dies setzt eine Konzentrationsleistung voraus, die niemals gleichzeitig gegenüber mehreren, sich unabhängig voneinander äussernden Sprechern aufrechterhalten werden kann.

Ein besonderer Aspekt dieser fundamentalen "Exklusivitätsregel" besteht darin, dass der Sprecher selbst während seiner Rede ebenfalls nur sich selber zuhören kann: und allein schon aus diesem Grund genauso wie seine Rezipienten daran interessiert ist, dass niemand anders zur selben Zeit spricht.

Im krassen Gegensatz zur Sprecherrolle unterliegt die Zuteilung von Zuhörerrollen keinerlei Restriktionen und braucht deshalb auch nicht zum Gegenstand besonderer Normierung und sozialer Kontrolle zu werden: weil beliebig viele Individuen dasselbe wahrnehmen (niemals aber dasselbe tun) können, ohne einander wechselseitig zu behelligen:

"So geniessen bei Begegnungen, wo gesprochen wird, alle das Recht des Zuhörens, während das Recht zu sprechen sehr restringiert sein kann, wie z.B. bei Bühnenaufführungen und grossen öffentlichen Versammlungen. Aehnlich dürfen Kinder den Unterhaltungen bei Tisch zwar zuhören, aber sie dürfen nichts sagen (Goffman 1971:101).

Ist es aus Gründen sozialer Systembildung einerseits nicht nötig, so wäre es unter kollokalen Bedingungen andererseits auch nicht gut möglich, den Zugang zum Erleben zu beschränken und zu reglementieren: Wer überhaupt anwesend ist, geniesst allein dadurch das pauschale Recht, alles, was wahrnehmbar ist, zu rezipieren: nur wer handeln, und insbesondere wer sprechen will, muss die Sphäre subjektiver Beliebigkeiten verlassen und sich dem Feld sozialer Konfliktrisiken und normativer Zwänge exponieren.

So ist es für verbale Kommunikationssysteme charakteristisch, dass sie ihre Einheit nur unter Bedingungen der "Monofokalität" (bzw. der "zentrierten Interaktion") wahren können: indem in jedem Moment ein scharf herausgehobener, konsensual anerkannter "ratifizierter Sprecher" identifizierbar ist, dem gegenüber alle andern in der rezeptiven (aber deswegen keineswegs viel anspruchsloseren) Komplementärrolle des Zuhörers verharren. Sobald mehrere Personen gleichzeitig sprechen, tendiert das System zur segmentären Differenzierung in einer Mehrzahl kleinere, beziehungslos nebeneinander koexistierender Subeinheiten: wie z.B. im umfangreicheren geselligen Konversationskreise, wo jeder Redner einen eigenen kleinen Zuhörerkreis um sich schart. Wird die Exklusivitätsregel in der Zuweisung der Sprecherrolle selbst in diesen Mikrosystemen nicht mehr beachtet, kann nicht mehr von einem "Gesprächssystem" gesprochen werden und die kollokale Gruppe regrediert auf das Niveau nicht-verbaler Kommunikation, wo viel anspruchslosere Integrationsbedingungen herrschen (vgl. 2.2.4).

Solange Anwesende nämlich nicht sprechen, können sie auch ohne scharfe Differenzierung zwischen Emittenten- und Rezipientenrollen einen einheitlichen Systemzusammenhang aufrechterhalten, weil jedes Mitglied in der Lage ist

a) gleichzeitig seine Blicke widerstandslos über viele andere Teilnehmer schweifen zu lassen, und ohne anstrengende, diskontinuierliche Akte der Zu- oder Abwendung immer wieder andere Adressaten ins Auge zu fassen;

b) ohne Ueberlastung seiner eigenen Aufmerksamkeitskapazität gleichzeitig als Emittent eigener und als Rezipient fremder Stimuli zu fungieren: Weil die jeweils eigenen gestischen und mimischen Kundgaben zu ihrer Ausführung häufig nur wenig bewusste Aufmerksamkeit benötigen und für den Emittenten meist keine Objekte konzentrierter (propriozeptiver) Wahrnehmung bilden. Mit wachsender Teilnehmerzahl wird es deshalb immer wahrscheinlicher, dass kollokale Sozialsysteme nur noch über "niedrigere" Kommunikationsmedien nicht-verbaler Art (im Grenzfall: nur noch durch die wechselseitige Konstatierung gemeinsamer Anwesenheit) zusammengehalten werden, während sie auf der verbalen Ebene in kleinere Subsysteme desintegrieren. Im Unterschied zu allen Formen translokaler Interaktion kann man sich derartige Desintegration aber gefahrlos leisten, weil man immer zur fundierenden, nonverbalen Integrationsebene zurückkehren kann: um auf ihrer Basis wieder neue und anders zusammengesetzte Gesprächseinheiten zu generieren.

Umgekehrt kann ein Gesprächssystem paradoxerweise seine innere Einheit nur dadurch wahren, dass es eine ebenfalls überaus drastische, diesmal aber komplementär gestaltete, Form struktureller Binnendifferenzierung ausbildet und mit den bedrohlichen Integrationsproblemen fertig wird, die mit der scharfen Unterscheidung zwischen Sprecherrolle und Zuhörerrolle sowie mit der jeweiligen Exklusivität der Sprecherrolle zusammenhängen.

Ein erstes Integrationsproblem entsteht dadurch, dass es unvermeidlich ist, dem jeweiligen Sprecher eine generalisierte, ihm allein vorbehaltene Vorzugsstellung einzuräumen, indem man ihm in pauschaler Weise "die Plattform überlässt". (Goffman, 1981:162ff.). Wer immer den herausgehobenen Monopolstatus des "ratifizierten Sprechers" momentan innehat, befindet sich in der völlig autonomen Position desjenigen, der alles sagen kann, was er will; und wer immer die rein rezeptive Rolle des "blossen Zuhörers" akzeptiert, begibt sich in die verletzliche, ausbeutbare Situation desjenigen, der sich dem Risiko aussetzt, sich Bitten, Abschweifungen, Falschinformationen oder gar Drohungen und Anwürfen anhören (und nachher auf sie reagieren) zu müssen.

Wer immer zu sprechen anhebt, usurpiert die legitimationsbedürftige Rolle desjenigen, der den andern die grosszügige Vorleistung zumutet, ihm ohne zu wissen, was er sagen wird, ihre volle Aufmerksamkeit zuzuwenden, und er muss um Vertrauen und Anerkennung werben, um überhaupt (bzw. gar wohlwollend) angehört und verstanden zu werden. Typischerweise entsteht deshalb ein impliziter "Kommunikationsvertrag" in dem Sinne, das EGO als Gegenleistung für ALTER´S Zuwendung sich freiwillige Mässigung und Zurückhaltung auferlegt, konventionelle Regeln einhält und sich um angemessene Kürze bemüht (Goffman 1981:105ff.)

Aus demselben Grund pflegen Sprecher durch vorausgehende Bitten und begleitende "Demutsgebärden" ihre Hochschätzung und Dankbarkeit für die entgegengebrachte Zuhörbereitschaft zum Ausdruck zu bringen und dem Adressaten im voraus beruhigend mitzuteilen, dass sich ihre Redeabsicht auf kurze und inhaltlich eng begrenzte Äusserungen beschränkt:

"Deshalb wird die Eröffnung eines Gesprächs normalerweise erbeten, nicht gefordert, und oft stellt der Initiator der Rede eine Entschuldigung für die Störung voran, sowie eine Absichtserklärung, wie lange das Gespräch dauern wird, alles unter der Annahme, dass der Rezipient selber bestimmen solle, wie lange er seine Zuhörerrolle ausüben will. (Insgesamt beantworten Individuen mehr Gesprächseröffnungen, als sie eigentlich wollen: ebenso wie sie weniger Eröffnungen selber initiieren, als sie eigentlich möchten (Goffman 1981:18/19)".

Ähnlich wie bei eigentlichen Herrschaftsbeziehungen werden rituelle Demutsbezeugungen also mit dem Zweck verwendet, um die Asymmetrie eines sozialen Rollenverhältnisses symbolisch abzuschwächen: und wahrscheinlich sind sie umso unersetzlicher, je weniger es durch Zirkulation der Sprecherrolle möglich ist, allen gleiche Teilnahmechancen einzuräumen (z.B. bei Referaten oder in grösseren Gruppen).

Eine zweite, eher technische Integrationsproblematik entsteht daraus, dass der "ratifizierte Redner" wegen seiner temporären Ungebundenheit das Risiko läuft, den Gesprächsprozess in die Irre zu leiten: z.B. indem er unabsichtlich und ohne es zu merken Äusserungen macht, die vom Standpunkt der übrigen Teilnehmer aus als fehlplaziert, abschweifend, unverständlich oder aus irgendeinem andern Grund als inadäquat empfunden werden.

Im Gegensatz etwa zum Briefwechsel, wo unangemessene Kommunikationsakte kaum mehr revidierbare Fehlsteuerungen in Gang setzen (bzw. kaum mehr heilbare Wunden schlagen) können, bieten sich in der kollokalen Gesprächssituation gute Möglichkeiten, die einzelnen Sprechakte trotz ihrer autonomen, sozial unkontrollierten Entstehungsweise in einen übergreifenden Kontroll- und Steuerungsprozess einzufügen.

Dies geschieht vor allem dadurch, dass man Äusserungen als Glieder eines dialogischen Sprechzusammenhangs konzipiert: indem sie von allen Teilnehmern unter dem konsensualen Gesichtspunkt betrachtet werden, inwiefern sie als "Antworten" (bzw. allgemeiner: als Reaktionen, Konsequenzen u.a.) früherer Äusserungen verstanden werden könnten (Goffman 1981: 12). Bevorzugt wird wahrscheinlich ein allereinfachstes Modell kettenartiger Verknüpfungen unterlegt, bei dem jede Redeäusserung auf den unmittelbar vorangegangenen Sprechakt bezogen wird: und nur subsidiär wird zugestanden, dass sie mit vor- oder vorvorletzten Gliedern in Zusammenhang steht und ihrerseits übernächste Reaktionen provozieren kann.

Diese "horizontale", nur zu einem sich sequentiell fortspinnenden Konversationsgewebe führende Relationierung konkurriert häufig mit einer "vertikalen" Variante, bei der die Beiträge als Voten zu einem übergreifenden Thema verstanden werden und aus dieser Perspektive miteinander in Verknüpfung treten.

Die dialogische und die thematische Einbettung zusammen schaffen die Voraussetzung dafür, dass kollokale Gesprächsflüsse selbst dann nie sehr lange in die Irre gehen, wenn jeder Sprecher seine "Plattform" auf völlig eigenwillige und unvorhersehbare Weise benutzt: weil unmittelbar auf jede Äusserung aufwendige Prüfverfahren und Synthesebemühungen einsetzen, um sie als Gesprächsbestandteil eines sequentiellen Gesprächsablaufs zu integrieren.

Darüber hinaus haben die Zuhörer trotz ihrer grundsätzlich rezeptiven Rolle ein beschränktes Repertoire von Verhaltensmöglichkeiten zur Verfügung, um auf den Sprechenden Kontrolle auszuüben: indem sie durch nonverbale Gesten wie Blickkontakte, Kopfbewegungen u.a. unmissverständliche Reaktionen zum Ausdruck bringen (Kendon 1967), oder indem sie Nebenbemerkungen ("relational utterances") einflechten, die trotz ihrer verbalen Natur nicht darauf angelegt sind, dem momentanen Votanten die Vorzugsrolle des "ratifizierten Sprechers" zu entziehen (vgl. Ogden/Richards 1947; Soskin/John 1963).

Drittens müssen alle Gesprächssysteme allgemein akzeptierte Regeln und Verfahrensweisen anwenden, um

- zu jedem Zeitpunkt eindeutig festzulegen, wer die Rolle des "ratifizierten Sprechers" innehat,

- die Uebergabe der Sprecherrolle vom einen Teilnehmer auf den nächsten in geordneter Weise stattfinden zu lassen,

- den Gesamtumfang an Sprechgelegenheiten und an Redezeit auf die verschiedenen Mitglieder zu verteilen.

Die dabei zu bewältigenden Selektions-, Koordinations- und Allokationsprobleme sind nicht nur von den Gesprächsinhalten, sondern auch von der personellen Zusammensetzung und dem sozio-kulturellen Kontext des Gesprächssystems derart unabhängig, dass sich auch höchst universelle Prozeduren zu ihrer Lösung herausgebildet haben.

So besitzen wahrscheinlich alle menschlichen Gesellschaften und Kulturen einen den Individuen selbst kaum bewussten Bestand an Basisregeln, die die Erzeugung verbaler Konversationsprozesse steuern und bei jeder offenen (d.h. nicht zeremoniell fixierten) Gesprächssituation Anwendung finden.

Dieser generative Code gewährleistet beispielsweise, dass

- die Rolle des "ratifizierten Sprechers" in Zirkulation gehalten wird und auch wiederholt an dieselben Personen zurückkehren kann;

- üblicherweise ausschliesslich ein einziger Teilnehmer spricht und Ueberlappungen wie auch Pausen nur episodisch bleiben;

- die Reihenfolge variabel, im voraus indeterminiert (und deshalb für alle Teilnehmer unvoraussehbar) gehalten wird;

- keine übergreifende Steuerung des Gesamtprozesses existiert: weil über jeden einzelnen Sprecherwechsel separat und unabhängig entschieden wird und auch die Sprechdauer kein Objekt der Normierung bildet;

- das Gesprächssystem in seiner fundamentalen Struktur und Funktionsweise unberührt bleibt, wenn sich Grösse oder Zusammensetzung des Teilnehmerkreises verändern;

- eine gewisse Tendenz zur Aussegregation dialogischer Subsysteme besteht: indem der soeben vorangegangene Sprecher eine bevorzugte Chance hat, wiederum angesprochen und zum nächsten Sprecher bestimmt zu werden;

- der Sprecherwechsel substitutiv durch einen Akt der Selbstselektion (wer zuerst spricht, wird ratifizierter Redner) oder einen Akt der Fremdselektion (wer angesprochen wird, darf sprechen) erfolgen kann (vgl. Sacks/Schegloff/Jefferson 1978:7ff.)

Diese selben Regeln, die auf der einen Seite die flexible, diachrone Struktur des Gesprächsflusses generieren, sorgen andererseits auch dafür, dass die Nichtsprecher dauerhaft in der anstrengenden Komplementärrolle des Zuhörers verharren, in der ihnen die zweifache Pflicht aufgebürdet wird, mit eigenen Aeusserungen zuzuwarten und dem momentanen Redner aufmerksam zuzuhören.

Diese Disposition zur Erfüllung rezeptiver Rollenpflichten wird im Gesprächssystem mit endogenen "Bordmitteln" andauernd reproduziert. Denn jeder, der die Absicht hat, zukünftig aus eigener Initiative ins Gespräch einzugreifen oder die ihm angebotene Sprecherrolle zu akzeptieren, muss andauernd zuhören: um zu bemerken, ob er als nächster Redner aufgerufen ist, und um in der Lage zu sein, sinnvoll (d.h. ohne Brüche oder Wiederholungen) an das bereits Gesagte anzuschliessen. Die systematisch aufrechterhaltene Unsicherheit darüber, wer als nächster oder übernächster sprechen wird (vgl. oben), sorgt dafür, dass alle Mitglieder andauernd die Rolle des aufmerksamen Zuhörers spielen: während ein im voraus festgelegter Turnus für jeden gewisse Möglichkeiten eröffnen würde, sich zeitweise zu desengagieren.

So nutzen Gesprächssysteme das Gefälle zwischen der Fülle potentieller und dem geringen Umfang aktualisierbarer Sprechchancen dazu aus, um Redebereitschaften in Zuhörbereitschaften zu transformieren und damit die Reproduktion der für Gesprächssysteme konstitutiven Rollenkomplementarität mit eigenen Mitteln sicherzustellen. Natürlich kann die Zuhörbereitschaft zusätzlich auch durch Sachinteresse oder normative Zwänge, durch Höflichkeit oder blossen Mangel an Beschäftigungsalternativen gewährleistet werden: aber wichtig ist die Einsicht, dass sie unabhängig von diesen exogenen Dispositionen auch allein dadurch entsteht, dass die Mitglieder sich am Gespräch mitbeteiligen möchten (vgl. Sacks/Schegloff/Jeffersin 1978:43/44). Entsprechend gewinnen exogene Motivationsquellen in dem Masse an Bedeutung, als die Mitglieder nur geringe Chancen zur eigenen Gesprächsteilnahme erblicken (z.B. in grossen Gruppen und/oder bei knapper Redezeit), oder wenn sie (wie z.B. bei Referaten, Podiumsdiskussionen u.a.) aus formellen Gründen von der aktiven Beteiligung ausgeschlossen bleiben.

Zum universellen Charakter der eben genannten Problemkonstellationen und ihrer organisatorischen Lösungsmuster gehört auch, dass sie unabhängig davon gelten, ob im Verhältnis zur Nachfrage allzu knappe, angemessene oder gar überreichliche Sprechgelegenheiten und Redezeiten zur Verfügung stehen.

Zusätzliche Anforderungen an soziale Koordination und Kontrolle ergeben sich aber in dem überaus häufigen Fall, dass nicht jeder mitreden kann, der möchte, die meisten nicht genau dann das Wort erhalten, wann sie es wünschen, und vielleicht niemand sich derart häufig und ausführlich äussern kann, wie es ihm beliebt.

Der unaufhebbare "Basisantagonismus" im wechselseitigen Verhältnis von Gesprächsteilnehmern besteht darin, dass derjenige, der momentan das Wort führt, die Redechancen der übrigen Mitglieder in zweierlei Hinsicht reduziert:

1) Ganz kategorisch hindert er alle andern daran, zum selben Zeitpunkt in den Kommunikationsprozess zu intervenieren. Daraus entstehen drastische und auch mittels zeitlicher Sequenzierung nicht behebbare Selektionsprobleme: weil jedes Stadium des Gesprächs seine eigenen, nie identisch wiederkehrenden kommunikativen Anschlussmöglichkeiten eröffnet. Vor allem gibt es einige privilegierte, heiss umkämpfte Eingriffspunkte, über deren personelle Zuteilung kaum Konsens zu erzielen ist: z.B. wenn es darum geht, Themen oder Traktandenlisten festzulegen, Angebote vorzuschlagen, auf labile Meinungs- und Kräftekonstellationen Einfluss zu nehmen oder über weitere Verfahrensweisen (Gesprächsdauer, neue Begegnungstermine u.a.) Entscheidungen zu treffen.

Ebenso drastisch sind die Chancen verbaler Selbstdarstellung betroffen: denn wohlvorbereitete Voten brillantester und originellster Art lassen sich nicht mehr anbringen, nachdem der Vorredner sie vorweggenommen hat oder durch eine unvorbereitete Gesprächswendung eine Situation erzeugt hat, in der sie "nicht mehr passen".

Wann immer zum selben Zeitpunkt mehrere Personen um die Rolle des "ratifizierten Sprechers" konkurrieren, gibt es nur die eine Lösung, sie nacheinander zu Wort kommen zu lassen: und damit den Zeitbedarf des Gesprächssystems zu vermehren.

Diese Engführung durch das Nadelöhr diachroner Sequentialisierung wäre - hinreichende Verfügbarkeit an Zeit vorausgesetzt - nicht so schlimm, wenn die Teilnehmer dadurch (wie z.B. beim Schlangenstehen) nur mit Wartepflichten belastet würden. Viel folgenschwerer ist, dass bei der Transformation synchroner Redeerwartungen in diachrone Sprechakte unweigerlich Komplexität verlorengeht: eben weil viele beabsichtigte Voten durch den unvorhersehbaren, irreversiblen Ablauf des Gesprächs ihren Informationsgehalt verlieren oder im veränderten Sinnhorizont keinen Platz mehr finden.

2) In zweiter Linie trägt jeder Sprecher tendenziell dazu bei, die gesammelten zukünftigen Redechancen der übrigen Teilnehmer zu mindern: weil sich Gesprächssysteme ja bekanntlich nur innerhalb limitierter, mit den physisch-psychischen Dispositionen und übrigen sozialen Verpflichtungen der Mitglieder vereinbarten Zeiträume entfalten können (vgl. S. 116), und meist sogar zum vornherein darauf angelegt sind, nach einer gewissen Dauer abgebrochen zu werden.

Vor allem mit wachsender Teilnehmerzahl beginnt die "Knappheit an Redezeit" zu einer immer kategorischeren Restriktion des Kommunikationsprozesses zu werden:

a) weil es immer wahrscheinlicher wird, dass zahlreiche potentielle Sprecher um die verfügbare Zeit konkurrieren,

b) weil es immer kostspieliger und inakzeptabler wird, zugunsten zusätzlicher einzelner Sprecher die gesamte Gesprächszeit auszudehnen: da sehr viele andere eine Verzögerung ihrer übrigen Bedürfnisbefriedigungen oder Rollenverpflichtungen hinnehmen müssen (vgl. Rauch 1983).

So stösst man beim Streben nach politischer Demokratie oder andern egalitären Formen kollektiver Selbstverwaltung immer auf die Schranke, dass zahlreiche Mitglieder aus rein zeittechnischen Gründen von direkter Partizipation überhaupt ausgeschlossen bleiben und die übrigen ihre verbalen Kommunikationschancen höchst differentiell untereinander verteilen (vgl. Dahl, 1975: passim))

Daraus kann man wahlweise die Folgerung ziehen, dass gleichverteilte Mitwirkungschancen nur bei geringer Teilnehmerzahl möglich sei (vgl. z.B. Simmel 19...) oder dass die Artikulationschancen der "breiten Masse" durch indirekte Beteiligungsmechanismen (Repräsentativität, Responsivität u.a.) gesichert werden müssten (vgl. z.B. Uppendahl 1981, 85ff.).

Generell kollidiert auch jede Theorie des "herrschaftsfreien Diskurses" bereits ganz am Anfang mit der evidenten Tatsache, dass Gesprächssysteme zu jedem Zeitpunkt, zu dem man sie betrachtet, eine äusserst asymmetrische, inegalitäre Binnenstruktur aufweisen: indem einem herausgehobenen einzelnen Sprecher, der in pauschaler und autonomer Weise "die Plattform beherrscht", mehrere "submissive Zuhörer" gegenüberstehen, die sich durch ihre generalisierte Rezeptionsbereitschaft zumindest temporär in eine verletzliche, ausbeutbare Stellung begeben haben.

Will man dann argumentieren, dass die Symmetrie der kommunikativen Chancen eben im Zeitverlauf durch eine Art Gleichverteilung der Redegelegenheiten und Sprechzeiten hergestellt werden müsse, so stösst man auf unüberwindliche Probleme, die leider nicht nur mit der quantitativen Begrenztheit der Gesprächszeit, sondern auch mit der qualitativen Differenzierung und der irreversiblen Verlaufsstruktur von Gesprächsprozessen zusammenhängen.

Völlig unaufhebbar ist die Asymmetrie der Beteiligungschancen nämlich, wenn es gerade jetzt darauf ankommt, wer sprechen darf und wer nicht: z.B. um den Themenschwerpunkt des nachfolgenden Gesprächs zu fixieren, ein Kauf- oder Verkaufsangebot zu unterbreiten, einen Weg zur Konfliktlösung vorzuschlagen oder aus der Beratung einer Entscheidungsvorlage das Fazit zu ziehen.

Nur wenn sich das Gespräch auf eine serielle Aggregation gleichrangiger, in beliebiger Reihenfolge anzuordnener Sprechakte reduzieren liesse, könnte der quantitativen Gleichheit an Gesprächsbeteiligung auch eine qualitative Egalität an Mitwirkungs- und Einflussmöglichkeiten entsprechen. In Wirklichkeit aber vollzieht sich das Gespräch als eine unumkehrbare evolutive Abfolge von niemals identisch wiederkehrenden Konstellationen, von denen jede das Produkt des gesamten vorangegangenen Kommunikationsprozesses darstellt und durch den nächsten Redeakt wieder völlig verwandelt werden kann.

Dieser qualitativen Differenziertheit der Gesprächsvoten ist durch keinerlei Allokationsverfahren beizukommen: so dass Gespräche kaum je als Medien sozialer Egalisierung, sondern umgekehrt eher als Generatoren sozialer Differenzierung wirksam sind: weil in ihnen immense zusätzliche Ungleichheiten entstehen können, die mit den von aussen ins System hereingetragenen Inegalitäten (bezüglich Bildung, Berufsprestige, öffentliche Reputation u.a.) teilweise kumulieren, teilweise allerdings auch in ein kompensatives Verhältnis treten. So können die Delegierten von Kleinstaaten an internationalen Konferenzen ihre inferiore Initialposition beträchtlich aufbessern, wenn sie in den Verhandlungsdiskussionen überdurchschnittlich intensiv und taktisch geschickt partizipieren (vgl. Yung-me: 1979).

Vielleicht ist "Redezeit" das universellste (weil von spezifischen Bedürfnissen, Werten und strukturellen Positionen unabhängigste) knappe Gut, um dessen Zuteilung Menschen miteinander konkurrieren: auch und gerade in den von anderen Knappheiten weniger betroffenen privilegierten Schichten, deren Mitglieder dank vielseitiger Rollenaktivitäten einerseits und hoher verbaler Kompetenz andererseits besonders für die Erfahrung disponiert sind, dass gewünschte und realisierbare Sprechgelegenheiten weit auseinanderklaffen.

Und die Gesprächssituation wäre dann der verbreitetste und dominierendste aller Sozialisationskontexte, in der Menschen in fundamentaler Weise lernen, wie man knappe, umkämpfte Ressourcen dennoch friedlich untereinander verteilt: indem man Kompromisse schliesst oder sich einer gemeinsamen Ordnung von Koordinations-, Allokations- und Konfliktlösungsregeln unterwirft.

In jeder Grundschulklasse zum Beispiel erfahren die Kinder von der ersten Unterrichtsstunde an, dass immer nur eines von ihnen aufgerufen wird, um auf eine an alle gerichtete Frage der Lehrerin Antwort zu geben: so dass sie mit der schizophrenen Konstellation zurechtkommen müssen, dass dasselbe soziale Milieu, das in ihnen ständig verbale Antwortbereitschaften evoziert, ihnen viel zu wenig Gelegenheiten, solche Reaktionen auch "loszuwerden", bietet. Als Folge davon bleiben die meisten Teilnehmer auf einen rein selbstreferentiellen Umgang mit den von ihnen konzipierten, aber nicht artikulierbaren Verbalisierungen verwiesen (vgl. Rauch 1983) und lernen dabei wahrscheinlich (im Sinne von G.H. Mead), mit sich selber auf dieselbe Weise umzugehen, wie sie sich vorstellen, dass andere (in diesem Falle die Lehrerperson) mit ihnen umgehen würden.

Gegenüber jeder Weise translokaler Verbalkommunikation haben kollokale Sozialsysteme den Vorzug, dass mit der Ausdifferenzierung von Sprecher- und Zuhörerrollen relativ wenig Desintegrationsrisiken verbunden sind, weil nonverbale Kommunikationsmittel, vor allem wechselseitige Blickkontakte als Korrektiv in Anspruch genommen werden können.

An der ubiquitären Verwendung und den vielseitigen Funktionen des Blickwechsels lässt sich besonders gut illustrieren, in welch hohem Masse verbale und nonverbale Ausdrucksmedien in einem komplementären (anstatt substitutiven) Verhältnis zueinander stehen:

1) Blickkontakte schaffen dank ihrer voraussetzungslosen Zugänglichkeit eine basalere, den verbalen Austausch fundierende Ebene interpersoneller Kommunikation. Dem ersten Redevotum (selbst dem Begrüssungsritual) vorausgehend, erzeugen Individuen durch Blicke wechselseitige Gewissheit, sich in einer Situation der Aufmerksamkeitszuwendung und "Ansprechbarkeit" zu befinden; sich permament erneuernd, erhalten sie diese Situationsdefinition über Gesprächspausen hinweg aufrecht; dem letzten Abschiedswort nachgesandt, markieren sie den äussersten zeitlichen Begrenzungspunkt der "Begegnungsphase" innerhalb der sich verbale Kommunikation hat entfalten können.

Blickkontakte scheinen gleichzeitig notwendige und hinreichende Bedingungen dafür zu sein, dass Individuen sich im Zustand interaktiver Relationiertheit definieren, und äusserst habitualisierte Verhaltensnormen scheinen dafür zu sorgen, dass sie sich - jeweils eine Dauer von mindestens drei und höchstens zehn Sekunden umfassend - in kurzen Intervallen über den gesamten Gesprächsprozess hinweg wiederholen (vgl. Argyle/Dean 1965).

2) Zuhörer machen ihre Marginalität, die sie innerhalb der verbalen Kommunikationsprozesse hinnehmen müssen, teilweise dadurch wett, dass sie umso intensiver vom nonverbalen Ausdrucksmedium des Blickens Gebrauch machen, um ihre Integration ins soziale Feld trotz ihrer rein rezeptiven Funktionsrolle sicherzustellen - und dies gegenüber dem Sprecher wie auch gegenüber anderen Zuhörern sichtbar zu signalisieren (Argyle/Dean 1965).

Sprecher müssen sich meist völlig auf den Blickwechsel mit den Rezipienten verlassen, um während ihres Redeflusses zu erfahren, ob man ihnen überhaupt zuhört: genauso wie sie aus der Art der Blicke (und eventuellen Zusatzgesten wie Lächeln, Kopfnicken u.a.) entnehmen können, wie man ihre Äusserungen aufnimmt und darauf reagiert (Kendon 1967).

3) Sprechende pflegen Blicke vor allem zum Ausdruck mannigfacher metakommunikativer Mitteilungen zu verwenden, die ja nicht gleichzeitig mit dem Fluss ihrer Rede verbalisiert werden können. Durch Abwendung ihres Blicks - z.B. am Beginn ihres Votums - unterstreichen sie ihre Absicht, konsequent die Rolle des "ratifizierten Sprechers" zu spielen, der sich gegenüber Fremdreaktionen abschirmen muss, um das, was er sagen will, ungestört auszuformulieren, und der vorerst nicht bereit ist, seine Plattform anderen Teilnehmern zur Verfügung zu stellen. Umgekehrt signalisiert er durch häufiges Anblicken der Zuhörer seine Bereitschaft, nonverbale Rückmeldungen über das Gesprochene in Empfang zu nehmen, bzw. die Sprecherrolle alsbald anderen, auf sein Votum verbal reagierenden, Teilnehmern zu überlassen (Argyle/Dean 1965; Kendon 1967; Duncan 1972; Rutter/Stephenson 1977; Beattie 1978).

Gespräche am Telephon und zwischen Sehbehinderten teilen die Erschwernis, ohne diese durch Blickkontakte mühelos und verzögerungsfrei erbrachten Koordinationsleistungen auskommen zu müssen. Bei ihrer (noch ausstehenden) empirischen Analyse würde sich wohl zeigen, dass einerseits vermehrt akustische Modulationen (des Tonfalls u.a.) in Anspruch genommen werden müssen und andererseits auch zusätzliche metakommunikative Verbalisierungen notwendig sind, um die sonst mittels visueller Kommunikation erbrachten Spezifikations- und Integrationsleistungen zu substituieren.

d) Sequentielle Strukturen innerhalb der Rede

Der Zeitbedarf verbaler Kommunikationsprozesse ist auch deshalb so enorm, weil sich ein Sprecher zur selben Zeit immer nur auf einen einzigen Duktus der Rede einlassen kann. Niemals ist er in der Lage, mehrere, voneinander unabhängige Kundgabeprozesse parallel nebeneinander herlaufen zu lassen, wie dies auf nicht-verbaler Ebene (z.B. durch simultanen Einsatz von Körperhaltung, Handgesten, Gesichtsmimik u.a.) ohne weiteres gelingt (vgl. 2.2.4)

Überdies sind innerhalb jeder Redeäusserung wiederum strenge Regeln der Sequentialisierung zu beachten: bedingt durch die rein physische Unmöglichkeit, gleichzeitig mehrere phonetische Laute zu emittieren, sowie die (allerdings auch im schriftlichen Ausdruck zu beachtenden) grammatikalischen und syntaktischen Vorschriften, wie man durch ein geregeltes Nacheinander von Wörtern und Ausdrücken verstehbare Sätze bildet.

Vom individuellen Sprecher aus gesehen bedeutet dies vor allem, dass ihm auf verbaler Ebene immer nur äusserst kärgliche (und deshalb sehr selektiv zu benutzende) Ausdrucksmöglichkeiten verfügbar sind, die mit der Inhaltsfülle seines "Bewusstseinsstroms" in gar keinem Verhältnis stehen. Denn als psychisch erlebendes Subjekt findet er sich mit der Fähigkeit vor, gleichzeitig höchst Verschiedenartiges zu fühlen, zu denken und wahrzunehmen. Allein schon sein Gesichtssinn bietet ihm ein Momentanbild höchst vielfältiger Gestalteindrücke dar, und simultan dazu sind ihm mittels Hören, Riechen, Schmecken, Berühren u.a. noch weitere Dimensionen sinnlicher Erfahrung erschlossen. Als verbal kommunizierendes Subjekt hingegen sieht er sich - selbst wenn er über perfekte "kommunikative Kompetenzen" verfügt - genötigt, diesen Reichtum synchroner Impressionen in ein dünnes Rinnsal diachroner Verbalisierungen zu transformieren, so dass vieles

a) überhaupt unartikuliert bleibt, weil keine Zeit dazu verfügbar ist;

b) erst nachträglich ausgedrückt wird, nachdem es aus dem aktuellen Erlebnisfeld verschwunden ist und nur noch als Erinnerung existiert;

c) nur mittels nicht-verbaler Kundgaben mitgeteilt werden kann, die weniger rigiden Zwängen der Sequentialisierung unterliegen.

So katalysiert verbale Kommunikation die Ausdifferenzierung des Persönlichkeitssystems gegenüber der sozialen Systemebene: weil ein Individuum in seiner Rolle des Sprechens, bzw. Schweigens drastischer als irgendwo sich als "einsames, autonomes Subjekt" erleben kann, weil

- sein aktuelles Erleben sich notwendig inkommunikativ vollzieht, da seine eigenen verbalen Äusserungen darüber (ganz zu schweigen von den Verbalreaktionen anderer) erst mit Zeitverzögerung erfolgen;

- die meisten Erlebnisinhalte überhaupt für immer in seinem "Privatbesitz" verbleiben, da sich nie Gelegenheit zum verbalen Ausdruck bietet

- weil es andauernd eigene Selektionskriterien anwenden muss, um darüber zu entscheiden, welche Inhalte überhaupt und in welcher Reihenfolge ausgedrückt werden sollen.

Vom sozialen Interaktionssystem her betrachtet hat der unilineare Charakter des Redeflusses die Konsequenz, dass Individuen sich zu jedem Zeitpunkt nur in äusserst selektiver Weise darstellen können: so dass selbst innerhalb grösserer Zeitspannen nur unsystematische Bruchstücke ihrer Persönlichkeitsstruktur und psychischen Prozesse sichtbar werden.

"Daher ist die soziologische Stimmung eines Blinden eine ganz andere als die des Tauben. Für den Blinden ist der Andere eigentlich nur im Nacheinander da, in der Zeitfolge seiner Äusserungen. Das unruhige, beunruhigende Zugleich aller Wesenszüge, der Spuren aller Vergangenheiten, wie es in dem Gesicht der Menschen ausgebreitet liegt, entgeht dem Blinden, und das mag der Grund der friedlichen und ruhigen, gegen die Umgebung gleichmässig freundlichen Stimmung sein, die so oft an Blinden beobachtet wird. Gerade die Vielfalt dessen, was das Gesicht offenbaren kann, macht es oft rätselhaft; im allgemeinen wird das, was wir von einem Menschen sehen, durch das interpretiert, was wir von ihm hören, während das Umgekehrte viel seltener ist. Deshalb ist der, der sieht, ohne zu hören, viel verworrener, ratloser, beunruhigter als der, der hört, ohne zu sehen." (Simmel, 1908:486).

Überall, wo ausschliesslich verbale Komunikation verfügbar ist (also auch beim Telephongespräch oder Briefwechsel) stellt sich das Problem, dass die Typifizierung von Personen auf der Basis von Ausdruckskundgaben stattfinden muss, die auf Grund ihrer hohen Selektivität und Variabilität nicht als repräsentative Indikatoren der Gesamtperson gelten können, und die darüber hinaus in höchstem Masse geeignet sind, um vom Emittenten je nach seinen taktischen Absichten bewusst manipuliert zu werden.

Wer immer im Sinne des "impression management" bemüht ist, andern gegenüber ein ganz spezifisches, völlig von ihm selbst kontrolliertes, vielleicht absichtlich beschönigtes oder verfälschtes Bild seiner selbst zu suggerieren, wird deshalb wohl eine auf reine Verbalkommunikation begrenzte translokale Beziehung wählen. Denn im kollokalen Verhältnis wird er erleben, dass er immer auch mittels seiner sichtbaren Körpererscheinung und vielerlei nichtverbalen Ausdruckskundgaben kommuniziert, in denen sich eher als in seiner Rede seine "eigentliche" (d.h. relativ invariante und situationsunabhängige) Persönlichkeitsstruktur verrät.

Ein weiteres Folgeproblem der Diachronisierung besteht darin, dass ein einzelnes Redevotum genauso wie das Gespräch als ganzes nicht aus gleichrangigen, seriell angeordneten Sprechakten besteht, sondern den Charakter eines irreversibel voranschreitenden Prozessablaufs besitzt.

Selbst wenn man alles sagen kann, was man will, bleibt deshalb immer noch das Problem, in welcher Reihenfolge man es ausdrückt: weil der Sinn jeder Äusserung mitbeinflusst wird dadurch, in welchem Antezedenz- oder Konsequenzverhältnis zu andern Äusserungen sie steht. So muss der Redner gewärtigen, dass die sequentielle Anordnung seiner Argumente in eine Rangordnung ihrer relativen Wichtigkeit umgedeutet wird, dass er mit seinen Eröffnungsworten Einfluss auf die Erwartungshaltungen und Beurteilungsmasstäbe seiner Adressaten nimmt, oder dass abschliessende Worte "Bekenntnischarakter" erhalten und die vorangegangene Rede rückstrahlend in ein ganz bestimmtes Licht eintauchen.

Auch schriftliche Texte sind zwar auf sequentielle Rezeption hin angelegte Gebilde, in deren Gliederung sich Bedeutungsunterschiede, logische Abhängigkeiten u.a. zwischen den einzelnen Teilen widerspiegeln. Und bei vielen sehr sorgfältig und systematisch konzipierten Texten (z.B. Gedichten, Erzählungen, aufbauenden wissenschaftlichen Einführungsbüchern u.a.) erschliesst sich der Sinn ausschliesslich dann, wenn der Leser sich der Autorität des Verfassers soweit unterwirft, dass er die von ihm festgelegte Sequentialität getreulich nachvollzieht.

Aber Texte sind andererseits immer auch Gebilde, die - wie andere physische Gegenstände - zu jedem Zeitpunkt als Ganzes mit allen ihren Teilkomponenten gegenwärtig und sinnlich rezipierbar sind, und die sich z.B. widerstandslos anbieten, um vom Leser an beliebiger Stelle aufgeschlagen zu werden. Diese noematische "Dingstruktur" ist es, die im Falle von Lexika, Wörterbüchern, Fahrplänen oder Telephonverzeichnissen natürlich völlig überwiegt.

Charakteristisch für die mündliche Rede ist nun aber, dass sie sich dem Rezipienten ausschliesslich als Prozessstruktur repräsentiert: so dass er nur die Wahl hat, entweder der vom Sprecher aufdiktierten Sequentialität unterwürfig zu folgen, oder sich dem kommunikativen Angebot vollständig zu entziehen. Dementsprechend muss der Redner auch viel eher als der Schreiber gewärtigen, dass er durch die gewählte Reihenfolge seiner Verbalisierungen

a) Einfluss darauf nimmt, ob und wie sie angehört werden,

b) zusätzliche implizite Informationen darüber mitliefert, in welchen Beziehungen die verschiedenen Redeinhalte zueinander stehen.

III

Auf den nicht-verbalen Kommunikationsebenen tragen zwei Faktoren dazu bei, dass die emittierten Stimuli sich nur zum Teil intentional gestalten und kontrollieren lassen, sich manchmal gar dem Bewustsein des Subjekts völlig entziehen, und deshalb für Interaktionspartner nicht zweifelsfrei als absichtliche, mit "gemeintem Sinn" ausgestattete Handlungen erkennbar sind:

1) Sie sind noch relativ stark an den anatomisch-physiologischen und senso-motorischen Apparat des menschlichen Organismus gebunden, über dessen Funktionsweise das Individuum nicht unbeschränkt verfügt. So ist die Verfügungsgewalt über seine "Anwesenheit" und "äussere Erscheinung" dadurch limitiert, dass es zu jedem Zeitpunkt einen sichtbaren und irgendwo im Raum befindlichen Körper mit sich führt, dessen Translokation an physikalische Restriktionen gebunden ist und dessen äussere Form biologischen Gesetzmässigkeiten (der genotypischen Fixierung, der Reifung, Alterung u.a.) unterliegt.

Aber auch die meisten Bewegungsvollzüge und anderen Verhaltensweisen sind dadurch charakterisiert, dass sie sich mit einem sehr variablen Grad an Intentionalität auf identische Weise ausführen lassen: z.B. auch als völlig habitualisierte Routinehandlungen, die bei gewissen Situationsbedingungen "automatisch" ausgelöst werden, ohne dass bewusste Aufmerksamkeit auf sie verwendet oder eine Entscheidung unter Alternativen getroffen würde.

2) Sie entziehen sich der planmässigen Selbstkonzeption und begleitenden Selbstkontrolle, weil der Emittent selbst sie nicht (bzw. weniger gut als seine Interaktionspartner) beobachten und überwachen kann.

Für die fundamentalste Ausdrucksebene der "Anwesenheit" trifft dies allerdings nicht zu: denn normalerweise kann ich selbst genau so zweifelsfrei und präzise wie fremde Beobachter verifizieren, dass ich mich jetzt an genau diesem Ort befinde. Aber bereits auf der (differenzierteren und variableren) Ebene der "äusseren Erscheinung" tritt das Problem auf, dass ich selbst beim Blick in den Spiegel nur partiell erkenne, wie ich momentan aussehe, und dass ich vor allem dann auf Hinweise anderer angewiesen bin, wenn sich an meiner Körperoberfläche kurzfristig gewisse Wandlungen (z.B. Verschiebungen der Krawatte, Auflösung der Haarfrisur, Befleckung von Kleidungsstücken u.a.) vollzogen haben. Und vor allem gilt für alle meine visuell wahrnehmbaren Verhaltensweisen, dass ich mit Hilfe von Selbstwahrnehmung nur ein sehr unvollkommenes kognitives Verhältnis zu ihnen gewinne, während selbst oberflächlichste, unaufmerksamste äussere Beobachter sich mühelos einen präzisen Eindruck davon machen können.

Daraus folgt übrigens die soziologisch äusserst wichtige Konsequenz: dass gerade nicht-verbale Verhaltensweisen maximal dazu disponiert sind, soziale Handlungen zu werden: weil umso mehr interindividuelle Orientierungs- und Rückkoppelungsmechanismen nötig sind, um den Mangel an intraindividueller Selbstkontrolle zu substituieren.

Die einzigartige Bedeutung der Sprache besteht nun darin, dass dieses weitaus differenzierteste aller Ausdrucksmedien sich gleichzeitig auch am vollkommensten im autonomen Gestaltungsbereich des Individuums befindet: so dass Sprechakte - sofern sie nicht im Traum, Drogenrausch, schizophrenen Anfall oder in andern eher marginalen Zuständen erfolgen - praktisch per definitionem als intentionale Handlungen gelten und das Individuum in seiner Eigenschaft als Sprecher prototypischer als irgendwo anders zum "autonomen Subjekt" werden kann.

Dieser hohe Intentionalisierungsgrad hängt damit zusammen, dass die beiden vorhin genannten Restriktionen für verbale Kommunikation weniger als für alle andern Niveaus interpersoneller Ausdruckskundgaben Geltung haben:

1) Während das Individuum auf nicht-verbaler Ebene zwangsläufig andauernd verschiedenste wahrnehmbare Zustände aufweist und Bewegungsabläufe vollzieht, gibt es keinen im physiologischen oder senso-motorischen Apparat wurzelnden Zwang, verbale Laute zu erzeugen oder gar sprachliche Artikulationen ganz bestimmter Art zu emittieren.

Höchstens in jenem relativ engen Schnittbereich, wo vorsprachliche akustische Lautgebärden (z.B. Schmerzensschreie, Freudekundgaben u.a.) in verbal eingekleidete Ausrufe (wie z.B. "ach je", "oh Gott", "toll" u.a.) übergehen, sind Einbindungen in niedrigere (z.B. psychisch-emotionale) Funktionsebenen spürbar, die sich der absichtsvollen Manipulation teilweise entziehen. Alle komplexeren Verbalisierungen aber sind durchaus "kontigent" in dem Sinne, dass sie nicht deterministisch mit einer bestimmten individuellen Zuständlichkeit verbunden sind, sondern eines intentionalen Aktes bedürfen, der ebensogut nicht oder anders hätte erfolgen können.

Daraus folgt auch bereits, dass Sprechakte immer gleich zwei Hierarchieebenen der Handlungsentscheidung involvieren:

Dass Peter spricht, muss man ihm bereits als generelle Handlung zurechnen, weil er auch hätte schweigen können; was Peter spricht, (bzw. was er illokutionär damit bezweckt und perlokutionär damit erreicht), ist seine spezifische Handlung, die sich gegenüber einer prinzipiell unabgrenzbaren Vielfalt von Alternativen profiliert.

2) Sprachliche Äusserungen sind zur Selbstkontrolle optimal geignet, weil der Emittent sie prinzipiell in derselben Weise wie irgendein fremder Beobachter wahrnehmen und entschlüsseln kann.

Zum einen hängt dies mit der allgemeinen Eigenschaft akustischer Stimuli zusammen, dass sich ihre Wahrnehmung voraussetzungsloser, unselektiver und perspektivenfreier als im Falle visueller Reize vollzieht. Genauso wie jeder Anwesende jederzeit hören, aber nicht andauernd sehen kann, so gilt noch viel drastischer: dass jeder alle seine eigenen Laute jederzeit mithören kann, aber höchstens unter ganz speziellen Voraussetzungen zeitweilig in der Lage ist, einen Teil seiner gestischen (oder gar: mimischen) Kundgaben visuell zu rezipieren.

Nun sind zwar auch bei Lautgesten bestimmte perspektivische Verzerrungen wirksam, die die Selbstwahrnehmung stören: weil ich aus rein physiologischen Gründen meine eigene Stimme anders höre als alle, die sie nur äusserlich über ihr Hörorgan empfangen.

Im Falle verbaler Äusserungen ist aber auch diese Schranke der Selbstwahrnehmung vollständig aufgehoben: weil die Benutzung des konventionellen digitalen Sprachcodes garantiert, dass das Gesprochene unabhängig von der Stimmfärbung und andern "analogen Modulationen" einen stabilen lokutionären Sinngehalt besitzt, der sich mir selbst auf identische Weise wie irgendeinem fremden Zuhörer darbietet.

Während Individuen also in ihrem non-verbalen Verhalten aus einer isolierten, kaum intersubjektiv überbrückbaren Egozentrik heraus agieren, ohne zu sich selbst jemals das objektive Verhältnis zu gewinnen, das andere ihnen gegenüber besitzen, erlaubt, nein erzwingt das Sprechen eine Dezentrierung der Perspektiven, die der Selbstobjektivierung und der intersubjektiven Verständigung in gleichem Masse förderlich ist.

Nur in der Sphäre verbaler Kommunikation sind Subjekte deshalb wahrscheinlich in der Lage, ihren subjektiven Beobachter- und Aktorstandort gewissermassen in Aequidistanz zwischen ihrer eigenen Person und fremden Personen schweben zu lassen:

- zu mir selber gewinne ich höhere Distanz, weil ich meine eigenen Sprechakte als objektivierbare Ereignisse erlebe, zu denen ich denselben perspektivenfreien Zugang wie irgendwelche Zuhörer besitze;

- zum Adressaten meiner Kommunikationen gewinne ich besondere Nähe: weil ich (Gemeinsamkeit des Sprachcodes vorausgesetzt) ohne Aufwand an Empathie genau weiss, welche Art von Stimulus er von mir vernimmt.

So sichert der dem "aktuellen Verstehen" (vgl. Weber, 1972:3f.) zugängliche lokutionäre Kerngehalt der Rede ein Plateau gesicherter Intersubjektivität: eine Sphäre des "objektiven Sinns", der die beiden Prozesse der Enkodierung und der Dekodierung (die an sich völlig unabhängig voneinander durch autonome Subjekte getätigt werden) miteinander verbindet. Missverständnisse und Fehlsteuerungen der Kommunikation sind dadurch keineswegs ausgeschlossen: aber sie treten in einer Form auf, die es leicht macht, ihre Ursachen zu erkennen und zu beseitigen. Denn weil jeder Aktor die Botschaften, die er selbst enkodiert hat, genau kennt, kann der Grund für das Missverstehen nur darin liegen, dass der Empfänger sie auf eine davon abweichende Weise dekodiert: so dass man nur diese Diskrepanz thematisieren muss, um das Problem zu überwinden.

Demgegenüber sind Missdeutungen von nicht-verbalen Verhaltensweisen viel schwerer zu beseitigen: weil der Emittent nicht weiss, ob kommunikative Misserfolge auf von ihm selbst nicht kontrollierte Faktoren der Enkodierung oder auf Weisen ihrer Dekodierung zurückgeführt werden müssen. Die junge Dame am Nebentisch hat meinen Blick als plumpe Kontaktaufforderung missverstanden: aber vielleicht habe ich in meine Augen einen derart innigen Ausdruck hineingelegt, dass sie ihn so verstehen musste?

Sprechakte sind also prototypische Fälle von intentionalem Handeln, und Gespräche sind prototypische Handlungssysteme, deren Teilnehmer ständig unterstellen, dass

1) ihre eigenen Sprechakte absichtsvolle Handlungen sind, für die sie die eigene Verantwortung tragen

2) die Sprechakte der jeweils anderen ebensolche autonome Handlungen sind: so dass man sie dafür haftbar machen kann

3) jeder Teilnehmer die Selbstattribution (1) und die Fremdattribution (2) aufrechterhält; so damit zu rechnen ist, dass mein Partner sich für ihre Voten zur Rechenschaft ziehen lassen, und dass ich selbst zur Rechenschaft gezogen werde.

Die labilisierenden Wirkungen der nicht nur doppelten, sondern mehrfachen Kontingenz verbaler Interaktionen wären wohl unerträglich, wenn sich die Teilnehmer nicht auf gesicherte exogene Erwartungs- (und Erwartungserwartungs-) Strukturen abstützen könnten, die nicht selbst in die Kontingenz verbaler Kommunikation einbezogen sind. Unlösbare Paradoxien gibt es bekanntlich, wenn man nicht sicher sein kann, ob einer lügt, wenn er sagt, dass er nicht lüge, oder wenn ungewiss bleibt, ob jemand ironisch gemeinte Bemerkungen seinerseits ironisiert.

Der Bedarf an derartigen moralischen Absicherungen ist in der kollokalen Interaktionssituation allerdings nicht gar so gross wie dort, wo - wie z.B. im Schriftverkehr - ausschliesslich das verbale Medium alle Ausdruckskundgaben transportiert. Denn Anwesende können sich bei der Deutung des Gesprochenen immer auch auf die nicht-verbalen Begleitgesten abstützen, die dank ihrer geringeren intentionalen Steuerbarkeit (und damit: Verfälschbarkeit) häufig "das authentische Gesicht" eines Sprechers verraten.

Selbst die Gefahren des "kretischen Paradoxons" sind im kollokalen Gespräch nicht sonderlich zu fürchten: weil der Lügner vielleicht durch Nervosität oder Gesichtsröte kundtut, dass seine Behauptung, die Wahrheit zu sprechen, nicht stimmt.

Bedenkenswert ist schliesslich die Ueberlegung, dass Sprechakte gerade nicht zwingend dazu disponiert sind, soziale Handlungen zu sein: weil im Gegensatz zu non-verbalen Gesten kein Defizit an selbstreferentiellen Wahrnehmungs- und Steuerungsmechanismen besteht, das zu intersubjektiven Orientierungen nötigt. Nicht nur das durchaus häufige Phänomen des Selbstgesprächs (vgl. Goffman 1981:78ff.), sondern vor allem auch die Entfaltung der Schriftkultur und der auditiven Massenmedien beruhen alle auf der Möglichkeit, sprachliches Verhalten aus sozialen Rückkoppelungsprozessen weitgehend herauszulösen - und in einem Masse zu verselbständigen, dass es völlig ungewiss werden kann, ob überhaupt jemand etwas Gesprochenes oder Geschriebenes rezipiert.

Vor allem stehen Individuen vor der symmetrischen Wahl, Sprache entweder für Zwecke der Objektivierung (im Verhältnis zu sich selbst) oder für Zwecke der Subjektivierung (im Verhältnis zu anderen) zu benutzen. In jedem dieser Fälle werden sie Kundgaben mit übersubjektivem Geltungscharakter erzeugen, die den auf nicht-verbaler Ebene unbezwingbaren Hiatus zwischen selbstreferentieller und fremdreferentieller Perspektive überbrücken.

Wie bereits erwähnt, stellt die Ebene verbaler Kommunikation das oberste Niveau einer hierarchischen Ordnung intersubjektiver Ausdrucksmedien dar: Alle niedrigeren Medien sind "semantisch heteronom": in dem Sinne, dass die mit ihrer Hilfe erzeugten individuellen Kundgaben einen allzu diffusen, unbestimmt-vieldeutigen Sinngehalt beibehalten würden, wenn keine zusätzlichen, von den differenzierungsfähigeren höheren Ebenen bereitgestellten "Erklärungshilfen" bereitgestellt würden.

So bleibt die pure Anwesenheit in einer Kirche mehrdeutig, wenn nicht die äussere Erscheinung (Kleidung, Körperhaltung, Begleitutensilien u.a.) klar macht, ob es sich um einen neugierigen Touristen oder einen fromm-sonntäglich gestimmten Gottesdienstbesucher handelt.

Und die durch ein bestimmtes persönliches Erscheinungsbild nahegelegten Deutungen würden wiederum höchst unklar bleiben, wenn nicht aus dem gestisch-mimischen Verhalten zusätzliche Schlüsse gezogen werden könnten: z.B. kann der mit Fotoapparat und Stadtplan bewaffnete Tourist trotzdem plötzlich zu beten beginnen, oder die ältere Dame in Trauerkleidung ein unerwartetes kunsthistorisches Interesse an Altarbildern zeigen.

Allerdings gibt es auch genügend Beispiele dafür, dass der Prozess semantischer Spezifikation genau in die umgekehrte Richtung fliesst: z.B. wenn dieselbe Schäkerei des Chefs mit der Sekretärin völlig Unterschiedliches bedeutet, je nachdem ob sie sich im formellen Rahmen des Dienstzimmers oder in der Informalität einer abendlichen Einladung vollzieht; wenn alle Aktivitäten einer in Badekleidung am Strand befindlichen Person fast a priori den Charakter des Freizeithaft-Unverbindlichen erhalten, oder wenn ein Gelähmter damit rechnen muss, dass alle seine linkischen und unsicheren Bewegungen ausschliesslich als Folgen seines körperlichen Handikaps gedeutet werden.

Diese "Aufwärtsinterpretationen" verdanken ihre Bedeutung der Tatsache, dass die auf niedrigeren Ausdrucksebenen (Anwesenheit/körperliche Erscheinung) emittierten Stimuli jeweils zuerst wahrgenommen werden: und dass dann der normalen Neigung gefolgt wird, das nachträglich Wahrgenommene in Termini des bereits Bekannten zu interpretieren.

In dem Masse aber, wie man die höherrangigen Kundgaben in ihrer intrinsischen Differenziertheit zur Kenntnis nimmt, hat man keine andere Wahl, als den "Abwärtsinterpretationen" den Vorzug zu geben. Man wird dann nämlich erkennen, dass die variableren Verhaltensprozesse unendlich vielfältigere Informationen als die invarianten Körperbefindlichkeiten vermitteln: und dass es ohne die Zugriffsmöglichkeit zu verbalen Auskünften oft völlig aussichtslos wäre, zum "subjektiv gemeinten Sinn" persönlicher Anwesenheiten, Darstellungs- und Verhaltensweisen vorzustossen.

Es sind vor allem die folgenden zwei Eigenheiten der Sprache, die hier uneingeschränkt zur Geltung kommen:

a) Konstitution und Expression von Sinn uno actu

Unabhängig davon, ob der Sinngehalt einer nonverbalen Geste sich aus ihrer invarianten Verknüpfung mit physiologischen Vorgängen ergibt (Schmerzensschrei), durch Ritualisierung verankert ist (Händeschütteln) oder auf situationsabhängigen konventionellen Setzungen beruht (Winken, Pfeifen u.a.): immer ist diese Bedeutung bereits vorgängig fixiert, so dass sie sich durch die Ausführung der Geste nur aktualisiert, nicht aber konstituiert oder irgendwie verändert.

Dieser Mangel an "semantischer Autonomie" erweist sich auch darin, dass einzelne Gesten nicht wie Worte zusammengefügt werden können, um in ihrer Interdependenz (ähnlich wie ein Satz) irgend einen neuartigen, emergenten Sinn entstehen zu lassen: weil keine Coderegeln bestehen, die derartige Kombinationsverhältnisse definieren.

Ausschliesslich im Medium der Sprache sind Kundgaben möglich, die ihren Sinn nicht aus einem vorgefertigten Arsenal starrer Bedeutungsvarianten beziehen, weil dieser Sinn im selben Formulierungsprozess, der zu ihrem Ausdruck notwendig ist, überhaupt erst entsteht. So lassen sich im weiten Rahmen grammatikalisch-syntaktischer Regeln äusserst viele Sätze und unendlich zahlreiche Satzsequenzen bilden, die auch dann völlig verständlich sind, wenn sie vorher noch nie in derselben Weise ausgesprochen wurden.

Diese mangelnde Differenzierung zwischen Sinnkonstitution und Sinnexpression ist wohl ein Handikap, wenn das Bestreben dahin geht, die Stabilität, extensive Geltung und intersubjektive Erwartungssicherheit von Bedeutungen zu sichern: aber sie wird dringend nachgefragt, wenn es darum geht, neue kommunikationsfähige Bedeutungen zu bilden und die Starrheit nicht-verbaler Verhältnisse durch eine Komponente dynamischer, selbstkontrollierter Fortentwicklung zu ergänzen.

Diese "immanente Subversivität" der Sprache ist vielleicht nur tragbar, weil ihre Verwendung derart viel Zeitaufwand und Selektivität erfordert: so dass in jedem Sozialsystem die meisten Erwartungen nicht auf verbaler Ebene zur Disposition gestellt werden, und die habitualisierten Bedeutungen sich allein wegen ihrer permanenten, unmittelbaren Zugreifbarkeit immer wieder durchzusetzen pflegen.

Aber alle mit der Fähigkeit zur Selbststeuerung begabten sozialen Gruppen, Organisationen oder Institutionen kultivieren zumindest im insulierten Bereich ihrer Leitungs- und Entscheidungszentren intensive Prozesse verbaler Kommunikation, die den Zweck haben, die im System geltenden Erwartungen zu spezifizieren und die Bedeutungen individueller Anwesenheiten, Erscheinungsweisen und Verhaltensformen festzulegen, die nachher in einen deverbalisierten Zustand (der personellen Habitualisierung, technischen Routine, traditionalen Gewohnheit u.a.) übergehen können.

Während die "legitimatorische Geltung" derartiger Festlegungen wohl von der jederzeitigen Rückkehrmöglichkeit zur Ebene der (für ihre Genese und Modifizierung gleichermassen verantwortlichen) Sphäre verbaler Kommunikation abhängen mag, so hängt ihre faktische Geltung davon ab, dass derartige Reverbalisierungen unterbleiben oder höchstens im engen Korsett institutionell vorgesehener Gelegenheiten (Parlamentsdebatten, Kommissionssitzungen u.a.) stattfinden.

b)Symbolische Repräsentation des Nicht-Präsenten

Nur in verbalen Termini ist es möglich, eine faktische Ausdruckskundgabe auf nicht-verbaler Ebene in einen weiteren Interpretationszusammenhang einzubetten, der auch Vergangenes oder Zukünftiges, Entferntes, Mögliches oder nur Gesolltes oder Erwünschtes mit umfasst.Nur in Worten kann ich beispielsweise ausdrücken, dass meine sichtbare Schreibtätigkeit Teil meiner Berufsarbeit sei, die wiederum im Dienste meiner langfristigen Karriereplanung und Lebenserfüllung stehe.

Immer wenn der Fluss des nichtverbalen Verhaltens stockt, weil Unvorhergesehenes passiert, Erwartungen nicht eintreffen oder Konflikte zu bewältigen oder unerwünschte Zustände zu beseitigen sind: immer dann entsteht der Bedarf, die auf der Ebene ihrer Genese unlösbaren Probleme dadurch zu bewältigen, dass man sie verbal thematisiert und sowohl aus den variantenreicheren Ausdrucksrepertoires wie auch den metakommunikativen Möglichkeiten der Sprache Nutzen zieht (Goffman 1981: 37).

Wer dem andern auf die Füsse tritt, kann selten auf das verbale Ritual einer Entschuldigung verzichten, um den Zustand harmonischer Interaktion zu restituieren (Goffman 1974:138 ff.); und wer auf eine entsprechende Bitte bei Tisch das Salz nicht hinüberreichen kann, weil er es in der Küche erst holen muss, wird die kleine Spanne zwischen Erwartung und Erfüllung mit einer verbalen Absichtserklärung ("ich bring es her") überbrücken.

Wenn die routinehafte Zusammenarbeit zwischen Team-Mitgliedern plötzlich stockt, Zulieferungen aus andern Abteilungen ausbleiben oder Untergebene ihre Pflichten nicht erfüllen - immer wird eine "Aussprache" oder "Unterredung" erfolgen mit dem doppelten Ziel, die Problemursache zu lokalisieren und sich über dessen Lösung zu verständigen.

Sogar wenn es nur anonyme Fremde sind, die mein peinliches Ausrutschen auf offener Strasse bemerken, werde ich durch ein halblautes Selbstgespräch ("Ich Dummkopf") kundtun, dass dies ein absonderliches, untypisches Einzelereignis sei, von dem ich mich selbst scharf distanziere (Goffman 1981:78ff.)

Wenn Erwartungs- und Identitätsstrukturen permanent unscharf und spezifikationsbedürftig gehalten werden, ist ein "elaborierter Code" notwendig, um die geltenden Normen, Rollen, Zielsetzungen u.a. in jeder konkreten Situation neu zu präzisieren; während bei exakt definierten und starr fixierten Erwartungsmustern ein "restringierter Code" ausreicht und der Schwerpunkt der kollokalen Kommunikation sich auf die nichtverbale Ebene verschiebt (Bernstein, 1964).

Auch auf gesamtgesellschaftlicher Ebene werden an jenen Stellen, wo sich Unsicherheiten, Widersprüchlichkeiten und Störungen sozialen Verhaltens verdichten, institutionalisierte Felder verbaler Kommunikation ausdifferenziert:

- die Politik als Diskurssystem, das der Verständigung über ständig neue Interessenkonflikte und Wertprioritäten dient;

- die Jurisprudenz, die sich auf die verbale Explikation allgemein geltender Normerwartungen in kurativer Absicht (d.h. zwecks Behebung von Konflikten oder Mehrdeutigkeiten) konzentriert

- die Psychotherapie, die in derselben kurativen Einstellung Probleme selbstreferentiellen Erwartens und Verhaltens thematisiert.

Als Spezifikations- und Korrekturmechanismus für problematische Verhaltensweisen wird die verbale Kommunikation aber wegen ihrer Kapazitätsschranken einerseits und ihrer Risiken andererseits immer nur begrenzt (und eher subsidiär) zur Anwendung gelangen, denn politische Diskurse, Gerichtsverfahren und psychotherapeutische Prozesse haben die Gemeinsamkeit, dass sie

- sehr zeitaufwendig sind und sich deshalb nur für die Thematisierung ausgewählter, relativ stabiler Problemlagen eignen;

- in ihrem Ablauf und Ergebnis unberechenbar sind: so dass von den Beteiligten die Toleranz abverlangt wird, die Erwartungen während des Diskurses "pendent" zu halten und sich auf eine ungewisse Zukunft einzurichten.

Der verbale Kommunikationsprozess kann mit einem schmalen, zu jedem Zeitpunkt nur auf einen einzigen Gegenstand fokussierten Schweinwerferkegel verglichen werden, der durch Flexibilität im sequentiellen Themenwechsel wettmachen muss, was ihm an Fülle des simultanen Ausdrucks mangelt.

Und die meisten Inhalte intersubjektiver Verständigung werden nur retrospektiv, höchst selten oder überhaupt nie vom Scheinwerferlicht beleuchtet: weil die Individuen unabhängig von ihren Gesprächen durch das Medium ihrer Anwesenheiten, persönlichen Erscheinungen und gestischen Verhaltensweisen unablässig weiterkommunizieren und weil ihnen weder die Interaktionspartner noch die dringlichen Umweltprobleme genügend Zeit lassen, um sich über ihr Handeln (prospektiv oder rückblickend) verbal zu verständigen (Birdwhistell, 1968).

Inhalt

Prof. Hans Geser
Email: hans@geser.net.
URL: http://www.geser.net/

Elementare soziale Wahrnehmungen und Interaktionen

Ein theoretischer Integrationsversuch

ZWEITES KAPITEL:

Elementare soziale Wahrnehmungen
und Interaktionen