//Logo Image
作者:陳延暐(2011-07-25);推薦:徐業良(2011-07-26)
附註:本文為九十九學年度元智大學機械工程研究所陳延暐碩士論文「基於體感互動科技發展互動式溝通與情緒感知平台」第二章。

第二章 互動式溝通平台設計與開發

本章敘述互動式溝通與情緒感知平台(Interaction and Emotion Recognition Platform, IERP)中視訊會議模式互動溝通相關功能之設計,包括視訊螢幕架硬體設計,以及以肢體動作的方式,在視訊中傳遞表情符號功能。

2.1 視訊螢幕架設計需求

一般在使用視訊時,常會感覺到對方的眼神沒有注視著自己,主要的原因是視訊用的攝影機通常都是架設在螢幕上方,然而對話時對方的眼睛通常會注視電腦螢幕中的影像如圖2-1左),無法同時看著攝影機的鏡頭如圖2-1右),導致使用者感覺對方在注視別的地方,使得對話過程中缺乏眼神接觸。另外在視訊時除了影音的傳遞外,如能以肢體動作產生圖像類的表情符號,也能提升兩端互動的臨場感與趣味性。

2-1. (左)注視螢幕(右)注視攝影機

解決視訊時眼神接觸的問題,目前主要有硬體和軟體兩種方式。軟體的方式是將兩台攝影機放置在螢幕的兩側(如圖2-2[Tsai, Y .P. et. al, 2004],並同時用兩台攝影機進行拍攝,取得使用者兩側的影像,再將左右的影像作影像合成,以產生正面的影像。使用者可透過此種方式直接凝視螢幕中的影像,不需刻意凝視攝影機即達到眼神接觸的效果。

2-2. 攝影機放置於螢幕兩側所獲得之合成影像[Tsai, Y .P. et. al, 2004]

另一種是以硬體的方式達成眼神接觸功能,基本的概念是將攝影機的位置與對方在螢幕上的影像位置重疊,如此對話時對方的眼睛注視電腦螢幕中的影像,也就能同時看著攝影機的鏡頭。目前面板製作的技術尚未能夠將攝影機安裝於電腦螢幕中間,因此較合適的作法是放置一45度傾斜平面在螢幕的上方如圖2-3[Ott, M. et. al, 1993],並將攝影機置於平面的後方,此傾斜平面需具有光線反射的特性,能使螢幕上的畫面反射至傾斜平面上,同時攝影機也可拍攝到使用者的影像,達到眼神接觸的效果。

2-3. 透明平板放置示意圖[Ott, M., et. al, 1993]

本研究IERP中視訊會議模式互動溝通相關功能之設計有兩個主要目的,一是要在兩端對話過程中改善眼神接觸,第二則是希望使用者能以肢體動作的方式,在視訊中傳遞表情符號。

本研究採用ViewSonic開發的平板電腦ViewPad10作為主要硬體設備如圖2-4),考慮平板電腦的處理速度,若是採用軟體的方式,平板電腦需同時處理兩個攝影機合成的影像,另外再處理Kinect所擷取到的影像進行骨架辨識,會對此平板電腦造成太大的負擔,甚至降低主要的視訊功能的品質,因此本研究將採用視訊螢幕架硬體設計的方式以解決眼神接觸的問題。以肢體動作在視訊中傳遞表情符號,主要是使用Kinect辨識使用者肢體變化,並將辨識動作的結果搭配即時通訊軟體內的表情符號,讓使用者可以透過姿勢的改變發送動畫訊息。以下即分別敘述此二功能之設計。

2-4. ViewSonic開發的平板電腦ViewPad10

2.2 視訊螢幕架設計概念

如第一章所述,當使用者欲使用視訊功能(如平板電腦上出現即時通訊視窗,顯示視訊功能請求),使用者可開啟視訊,並將平台調整至視訊模式,之後使用者可直接對著平台上對方的影像進行面對面的對話。視訊螢幕架主要的設計需求為透過改變反射平面的角度、調整硬體設備的位置,以達成視訊時眼神接觸的效果。

視訊螢幕架設計主要考慮以下幾項因素:

(1)   Kinect使用特性與限制

若是將Kinect以直立的方式擺放(如圖2-5),則骨架辨識就無法執行;另外當骨架辨識完成時,劇烈的移動Kinect則會導致骨架輪廓消失。Kinect所搭配的紅外線深度攝影機,最短的偵測距離為50cm,若是偵測距離過近則會出現黑色的輪廓(如圖2-6);距離也會影響辨識的效果,當使用者與Kinect距離65cm時,使用者易超出辨識範圍,導致骨架輪廓遺失(如圖2-7左圖);當距離為85cm時,Kinect可完整的拍攝到使用者的上半身,且有足夠的辨識空間讓使用者活動。另外Kinect的彩色攝影機具有57度的水平視野,底座的馬達也可調整鏡頭的仰角高低。

2-5. (左)無法在直立的狀態進行辨識(右)突然的移動會導致辨識的骨架消失

2-6. 距離小於50cm時則無法偵測到深度

2-7. (左)65cm時的深度影像(右)85cm時的深度影像

(2)   人因工程考量

IERP為視訊模式時,平板電腦放置於反射平面的下方,並將Kinect擺在反射平面的後方,使影像的中心可以和Kinect的鏡頭重疊。當在桌上使用IERP時,若是影像的角度太低,則使用者需低頭觀看影像(如圖2-8),長時間使用易導致腰痠背痛,因此根據勞工安全衛生研究所[http://www.iosh.gov.tw]提供的電腦工作桌椅尺寸建議值(如圖2-9),顯示畫面的最上端應低於眼睛的高度,且臉的正面應朝向前方並稍微往下,以減少抬頭對頸部的負荷,另外眼睛離顯示器的距離也需維持40公分70公分

2-8. 平台角度影響使用者的觀看姿勢

2-9. 可調式工作站參考尺寸值[http://www.iosh.gov.tw]

考量此二因素,圖2-10為本研究視訊螢幕架之設計概念,主要包括反射平面與位置調整機構兩元件。在視訊模式時(如圖2-10左),平板電腦在反射平面下方,使用者以符合人因工程考量的傾斜15度,透過反射平面自然注視對方影像,Kinect攝影機位置在反射平面後方,位置與對方影像重合,故可達成眼神接觸效果。

ADL模式時(如圖2-10右),位置調整機構將Kinect攝影機位置上升至反射平面的頂端,使Kinect可清楚地辨識環境,而平板電腦則調整為直立的狀態,讓使用者可直接觀看螢幕。

2-10. 視訊螢幕架設計概念,左為視訊模式,右為ADL模式

2.3 視訊螢幕架細部設計考量

本研究主要使用的視訊通訊對話的軟體為Microsoft所開發的「Windows Live Messenger」,此軟體可提供文字以及影像語音的傳遞,而要將Kinect作為本平板電腦的視訊攝影機則要先安裝Xbox所開發的「Kinect Virtual Camera」,安裝完成後在Windows Live Messenger的網路攝影機設定中會出現三種攝影機(如圖2-11):DepthImage以及Smart camDepth所顯示的即為鏡頭範圍內的深度影像,而ImageSmart cam都是彩色攝影機,不過Smart cam增加了追焦技術,透過攝影機內的光學變焦即可在攝影機不移動的情況下,追蹤範圍內使用者的臉部特寫,在視訊時此功能也有助於眼神接觸的效果。

2-11. 三種攝影機設定

在前節所述設計概念下,視訊螢幕架細部設計考量包括以下幾方面:

(1)   反射平面設計

反射平面設計需求為,一面可反射平板電腦的影像,另一面則需為可穿透的材質。使用反射平面成像時,影像容易受到環境光線影響,導致畫面過亮而不清楚;另外過軟的透明板容易彎曲,導致影像變形。為了提高螢幕成像品質,主要改善的方向為透明板的硬度和表面的反射材質,本研究選用厚度為3mm的壓克力板,並在表面貼上汽車或是大樓所使用之隔熱紙,圖2-12為實際的成像效果,影像可清楚的成像在反射平面上,且Kinect也不易被使用者看到。

2-12. 實際成像效果

Kinect在進行攝影時常會受到來自上方光源的影響,導致影像有反光的現象。因此為了改善拍攝的效果,本研究將Kinect鏡頭上方放置一遮蔽物,並延伸至反射平面,阻擋來自上方的光線,圖2-13為實際的拍攝影像,即使透過反射平面,也可清楚的觀察到使用者的影像及深度輪廓。

2-13. 透過視訊平台所拍攝到的深度輪廓

(2)   位置調整機構設計

位置調整機構主要包含放置Kinect的上升平台、放置平板電腦的螢幕架以及作為上升動力的馬達(如圖2-14)。其中上升平台與螢幕架是由一連桿所連結,且依靠在上述之反射平面上,而馬達則安裝於上升平台的下方。在馬達的軸上安裝一摩擦係數較高之滾輪,並依靠在反射平台上,當馬達開始轉動滾輪,即可帶動平台順著反射平面上升,而螢幕架也會被上升平台帶動,由平躺調整為直立的狀態。與反射平面上放置滑軌,減少上升平台的摩擦力,使上升時能更平穩。

2-14. 自動切換模式機構

2.3 肢體動作控制平板電腦功能

本節將說明如何以肢體動作控制平板電腦功能,以及在視訊中傳遞表情符號。主要的操作流程如圖2-15,使用者擺出特定的肢體動作後,透過骨架辨識軟體及FAAST軟體轉換為電腦按鍵的指令,並搭配Visual Basic程式撰寫,達到操作電腦的功能。

2-15. 以體感互動操作電腦流程

2.3.1 FAAST介紹

本研究主要使用的按鍵模擬軟體為FAAST(Flexible Action and Articulated Skeleton Toolkit, FAAST)FAAST是美國USC南加州大學的MxR Lab所開發的軟體[http://projects.ict.usc.edu/mxr/faast/],其功能是將身體各關節動作定義至不同的電腦按鍵,可自由的依個人應用方式做修改。辨識軟體主要可將人體的肢體分為23個關節(如表2-1),並且可偵測到各個關節移動的距離或是轉動角度,而FAAST可將這些數值作定義,依照移動的關節及數值的大小對應至特定的電腦按鍵。目前這套軟體已應用於許多研究及遊戲控制,圖2-15FAAST的使用視窗,上方的黑色視窗會顯示Kinect鏡頭視野內的深度影像,以及骨架辨識的狀態;除了可在視窗中間的頁面中調整參數,也可直接讀取預先編寫好的設定檔,開啟個人化的控制模組;當按下Start Emulator按鍵時,即可開始以動作傳送按鍵指令,由於FAAST屬於按鍵模擬器,因此要操作其他軟體時,FAAST也需在背後持續開啟;在軟體執行時,下方的視窗會顯示目前的執行狀態,如使用者的數量以及發送的按鍵指令。

2-1. Kinect可辨識的關節種類[http://projects.ict.usc.edu/mxr/faast/]

2-16. FAAST介面

2.3.2 以肢體動作傳遞表情符號

本研究針對使用者可能出現的情緒狀態,預設了快樂、難過、生氣這三種表情符號,以FAAST軟體達到肢體動作操作,取代原本的滑鼠操作及觸控操作。讓使用者可以在視訊對話以肢體動坐船地表情符號,提升兩端互動的臨場感與趣味性。

搭配預設的三種表情符號,考慮肢體動作與情緒的關聯,與動作的方便性和容易辨識,本研究也定義了三個對應的操作動作。圖2-17為本研究定義的三種動作及搭配的表情符號。

2-17. 三種動作與指令的對應

在完成動作與表情符號的對應後,接下來要透過FAAST將肢體動作傳換為電腦按鍵指令。FAAST將按鍵的輸入法分為以下三種:key_presskey_hold以及key_typekey_press是當偵測到指定動作出現時,執行一次按鍵指令;key_hold則是在動作出現時執行指令,一直到動作解除後才解除按鍵指令,此種輸入法可搭配VB程式達到更詳細的程式控制;key_type則是可以輸入指定的字元。而FAAST的程式撰寫也相當單純且規則,圖2-18為基本的FAAST程式範本,分為肢體部位、移動單位、按鍵輸入法和按鍵指令四個部分。針對表情符號所撰寫的FAAST程式如圖2-19所示,當要表達快樂的情緒,使用者需將左手向上舉起,當手部與肩膀的距離超過20英吋時,FAAST就會發出1的字串,並且按下enter,再搭配MSN表情符號的設定即可將表情符號發送給對方。

 

2-18. FAAST的基本語法

2-19. FAAST表情符號定義程式

2.3.3 以肢體動作操作電腦功能

平板電腦內已安裝「關懷快遞數位相框(Care Delivery Frame, CDF)」軟體,主要的功能有相片瀏覽、音樂播放以及上傳生理訊號。圖2-20CDF主要的畫面,視窗下方為相片瀏覽功能按鍵,右方為音樂播放的按鍵,左下方的按鍵為上傳生理訊號。本研究針對圖2-21所示5個按鍵撰寫FAAST程式,達到肢體動作操作功能。

2-20. 平板電腦功能介紹

2-21. 主要按鍵介紹

針對控制平板電腦的FAAST程式內容如圖2-22,其中紅框中的指令為針對右手動作的定義,當右手向左擺動,且手掌與肩膀的距離超過20英吋時,FAAST則發出按下按鍵z的指令,其他動作也依照此種寫法完成定義。

2-22. FAAST操作平板電腦定義程式

完成FAAST定義後即可將肢體動作轉換為電腦按鍵指令,接下來要透過VB程式的撰寫達到更進階的功能操作。VB程式會依照輸入按鍵指令的不同,發送不同的程式指令,如圖2-23程式所示,當VB偵測到Z按鍵按下時,則發送讀取上一張照片的指令;當偵測到H按鍵按下時,發送開啟生理訊號上傳的指令。

2-23. 相片瀏覽與生理訊號上傳

2.4 以肢體動作控制位置調整機構

以肢體動作控制位置調整機構,主要先以FAAST發送按鍵指令,至自製之單晶片控制器pic_Proto,透過改變腳位的電壓,控制位置調整機構之馬達,使平台上升及下降。

為了讓使用者能夠更直覺的操作,本研究設定當使用者舉起左手時為上升平台,放下左手則為平台下降。針對控制位置調整機構的FAAST程式內容如圖2-24所示,當左手往上舉超過肩膀20英吋時,FAAST則發出按下按鍵W的指令;當左手往下伸長,則發出按下按鍵S的指令。

.FAAST操作位置調整機構定義程式

接下來要透過撰寫程式至pic_Proto的單晶片達到馬達控制。程式如圖2-25所示,pic_Proto會依照輸入按鍵指令的不同,改變pic_Proto上腳位的電壓,馬達與pic_Proto的配置圖如圖所示;在開始執行程式後,可開啟終端機觀看目前的執行狀態,當終端機接收到W按鍵的指令後,則會使的電壓上升至5V,使馬達正轉;接收到S按鍵的指令,則會使電壓上升至5V,使馬達反轉。

2-25. 單晶片內程式撰寫

下一章將說明如何以Kinect搭配程式撰寫達到活動力監測以及跌倒偵測。


 

參考資料

J. Gemmell, C. Zitnick, T. Kang, K. Toyama, and S.Seitz. “Gaze awareness for videoconferencing: A software approach. IEEE MultiMedia, Vol.7, No.4, pp.26-35, 2000.

M. Ott, J. P. Lewis, and I. Cox; “Teleconferencing eye contact using a virtual camera,” INTERACT ’93 and CHI ’93 Conference Companion on Human Factors in Computing Systems, 1993

S. E. Chen and L. Williams. “View interpolation for image synthesis, SIGGRAPH, pp.279-288, 1993.

Tsai, Y .P., Kao ,C. C., Hung. Y. P. and Shih, Z. C., “Real-Time Software Method for Preserving Eye Contact in Video Conferencing”, journal of information science and engineering 20, 1001-1017 (2004)