關於「微」字
chlbc opened this issue · 21 comments
建議將「微」修改為TW版本的字符,因其與舊字形較相符。
資料:http://www.zdic.net/z/19/zy/5FAE.htm
基本上這個project的概念是以傳統印刷體風格為準,不表示是康熙字典規格(不然草頭都要4筆了)。
在沒有很明顯不宜(例如「殺」字)的情況下,統一使用KR字符,比較容易整理。
「微」這個字是還好,剛好TW版本寫法很融合,要改也不是不行。
但這樣一來,例如「薇」就會很麻煩,使用TW版本,就會有與其他草頭不統一的問題。
假如改了「微」沒改「薇」,那又變成「微」「薇」之間不一致的問題。
以這裡而言我是傾向讓「微」「薇」一致比較好。
想問個小問題,傳統印刷體風格如果不是以康熙字典為標準,那有沒有一個可以直接判定該字是否為傳統印刷體風格的標準呢
一般是指半個世紀前鉛字常見的樣式吧。但沒有一份可直接判定的資料,因為各家鉛字也不同。
這個project的大前提是不造任合新的字符,只從思源既有的字符裡作選擇。
至於怎麼選,真的沒有標準答案。
我覺得你說的「微」選TW版本確實有道理,但我會比較傾向讓「薇」保持三筆草頭的前提下,讓「微」與「薇」一致。
好的感謝~我知道了。
那可以問一個問題嗎?
關於「真」字,康熙字典是比較符合目前韓文/日文版本的字符的,那該字在舊字形上是跟康熙字典相同的寫法,還是有連起來的台灣版本字符呢?
這個嘛,鉛字我只有看過眞耶……
好像哪個都可以。
由於我比較常看到「真」連在一起的字符,比較少看到日韓標準的字符(未連在一起),因此才有此疑問。不過康熙字典中該俗字好像比較接近日韓標準。
個人還滿喜歡大大製作的這系列字體的,不過我覺得目前舊字形的字型遇到的最大問題應該還是「環境」吧。因為在現況下,輸入法和網路上的各式內容還是以台標為準的比較多,因此在使用「真/眞」、「為/爲」、「青/靑」等字符時,較常出現左邊的字形,因此當擁有這些部件的字符相同編碼時,常常就會出現明明是相同部件,卻寫法與其他字不同的情況。
其實我個人認為目前比較理想的字體是像金萱或者華康明體那樣,在舊字形和台標間取得一個平衡。
回到正題,想請問大大有沒有知道那種類似「舊字形與新字形的對應字符、編碼表」或者「轉換器」之類的東西呢?
話說我嘗試整理這樣的對應表,但發現頗困難。
例如這種可能比較有共識是新舊字形對應:
598D (妍) 59F8 (姸)
5AAE (媮) 5A7E (婾)
5AAF (媯) 5B00 (嬀)
但這些到底算不算舊字形?還是算古字? 需要對應到這個程度嗎,實在很猶豫。
568F (嚏) 5694 (嚔)
這種也是很猶豫的,是新舊差異嗎? 還是異體字?
5241 (剁) 5234 (刴)
5B73 (孳) 5B76 (孶)
51A4 (冤) 5BC3 (寃)
8209 (舉) 64E7 (擧)
6559 (教) 654E (敎)
總之這個對應表的選擇其實是非常主觀的作業的...
我覺得在選擇這個表時,最先要考慮的是:大多數的人是否可認得這個字,以及其是否能讓一般人順暢閱讀,而不感到突兀。之後才是選擇較美觀的舊字形。
因此個人會比較傾向選擇:姸、婾、嬀、敎 四字,而其他的就從左。
不過我在使用這類舊字形字型時遇到最大的問題,是在於物件的不統一。因為目前網路上的文章,以及輸入法的預設輸出之字符,都是以台標為主,因此容易造成「真/眞」、「青/靑」等字符的不統一,有些小亂。
大大知道擁有這些類似部件的字符那些有統一、那些沒有統一嗎?
此外還有一個問題:「者」字。雖然我知道有加一點的較符合傳承字形,但因其不常見,因此可能和日文字型中少了一點的的「類」有一樣的問題──被視為錯字;而且「者」字也有和上一段一樣的字形不統一問題,像是有加一點的「者」與沒加一點的「緒」之類的,我覺得這是目前舊字形字型遇到的比較大的困境之一。
感謝大大這次的更新~辛苦了!
不過這次還想提出幾個建議:
1.這次的字形統一大幅度的解決了以往的問題,不過也使得源樣系列可能變得比較不適合某些地方使用,像是需要使用檢索的一些網站、文件、系統UI,以及正在編輯中的文件等。因為這樣的統一修改導致一些不同碼位的字符擁有同一字形,因此使用者看到畫面上顯示「値」字,卻不知其是「値(5024)」還是「值(503C)」;而套用源樣系列到正在編輯中的文件,也有可能在後續編輯後造成部分文字在碼位上不統一的問題。
建議要不要再額外做一個參考華康明體或金萱等字型採用之字形的字型呢?如此可以擴大該系列之泛用性,並減少此類錯誤。當使用者使用該類字型編輯完成後,再採用舊字形統一的字型,即可達到較好的效果;當然缺點就是需要耗費兩倍的心力在維護與建立上了。
2.關於舊字形部分,我已知道是看每個人的喜好來決定的,不過還是有幾個字符要提出來跟大大討論下:
「舉」、「擧」:在下認為這比較接近異體字的關係,畢竟在康熙字典時代就已有「舉」字了;而且該字形統一也會衍伸出一些問題,像是「櫸」字。
有「賣」部件的字:這字目前未改,但像該字與「續」等字排時一樣會出現不統一;但如果改了的話,就會變得和「買」字不統一......整個微妙..
有「者」部件的字:主要是目前有點的「者」實在有點少見,因此極有可能被視作錯字。
3.在部分專案下還留著有點早期的文件(像是genryu-cover-tw.png),建議整理下。
1 就是我原來不太願意兩碼對應到相同文字的原因啊。
實務上本計劃無法製作華康明體或金萱等字型採用之字形,因為所有字符都選自思源本家,本家沒有提供的字形,就做不出來。
另外,目前6個家族合在一起TTF檔已經超過700MB了,有點大到遠超過我預期的程度。實在不想要再增加新字型。
--
關於2,這就是我之前說的任意性。到底要選那個比較好,人人觀感都不同。
對我而言有點的者看起來很習慣,但也許別人不是這樣。選哪個比較好是永遠討論不出結果的。
另外,「賣」字與其他讀、贖、續等字字源不同。賣字本來就不從四。
好的,感謝大大的回應
「賣」字我是被異體字「𧶠」的康熙字典給影響了。剛才去查了下,說文解字上確實不同,感謝大大解答~
1.舊版源樣之所以會有字形不統一的問題,主要是因為目前大多繁體文章,以及輸入法預設輸出的文字,都是以台標字形所在的碼位為主,因此如果使用舊字形且非統一的字型,就會有字型不統一的問題。
但若統一,就不太適合使用在系統UI或正在編輯的文件上。
因此我所說的「華康明體或金萱等字型採用之字形」主要就是「以舊字形為主,但部分遷就新字形,並盡量保持美觀的作法」。建議詳細如下:
使用之前未統一的版本,並將那些會造成不統一的字符之字形修改成比起台標較美觀的新字形版本字符。
例如:
「円」(丹青)部件:採用日本版,像是:精
「直」部件:採用中國版或台灣版
「真」部件:採用中國版或台灣版
而那些沒有統一問題的舊字形,就維持原本的韓文版。
做了這些修改後,就能在一定程度上字形統一且兼具舊字形的美觀。而目前的舊字形統一字型也可在文件等完成後進行套用,進行最終舊字形的統一呈現。
當然缺點也很明顯:字型所佔的大小,以及建立、維護的時間成本。因此上述建議供大大參考囉
那就是原來的版本不是嗎?
兩種只能選一種啦,700MB x 2 是 1.4GB 耶....
與本家的版本與舊版源樣皆不同,因為該建議是:基於韓文版,並將部分在現行環境下會造成部件不統一的字修改成日本版、中國版或台灣版的字符,使其能在不統一字符的前提下,在現行環境統一大多數的部件。
而之所以會提出這個建議,主要是因為目前統一字符的版本僅較適合使用在「已輸出」的環境,但在某些需要編輯的環境可能就有點不太適合使用了(因為無法區分碼位,因此可能會造成文件用字所使用的碼位不統一)。
當然檔案大小是一大問題,但以上的提議其實是在舊字形的基礎之下,將部分部件不統一的字修改成新字形,因此可能就有點不太符合該計畫原始的「舊字形字型」了,頂多只能說該提議下的字型是「有舊字形美感的字型」;但其確實可以在能夠區分字符碼位的前提下,在現行環境解決不統一的問題,因此提供給大大參考。
感謝大大詳細的解說和圖解,這部份是我忽略掉了,不好意思。
不過這樣看來好像就沒辦法解決這個問題了。在現行環境下,舊版在字形上有可能會不統一,而統一字形後的新版卻有可能在編輯時造成碼位不統一。期待未來會有更好的解方吧。
另外我想問下關於源樣系列的中英搭配問題。
因為有的時候會需要中文與英文義大利體混排,而源樣雖可搭配思源系列原本的 Source Serif/Sans Pro 的 Variable Italic 版本,但像是源泉和源雲這類跟原版差異有點大的版本,就有點不太合了。
建議要不要也製作源樣系列歐文的 Italic 版本呢?或是大大有其他建議的搭配方案嗎?
此外建議源流明體的歐文要不要也修改成古典襯線體的版本呢?那樣氛圍應該會比較配。
我是把這些字型定位在只從思源系列修改為基本理念。
如果要對特定文字或歐文去重造字符或是從別的字型取字符,整個計劃就怕無限擴張了。
(而且每個字都有7個weight要做....)
既然全部都是開源的,歡迎大家自行 fork 去做客製化的版本。
==
日本已經有幾套開源字型 fork 源流明朝、源雲明朝的漢字去用了。
好的,我知道了。
因為思源系列的歐文部分是來自於 Source Serif/Sans Pro,而且其在Adobe的分類下也是屬於同一個系列的,因此想說將原本的義大利體拿回來用,就可以讓該字型能夠在中英排版上有更廣泛的運用;而源流歐文的建議也是考慮到其漢字的特性而提出的。
另外想問下最後一個問題。
請問除了直接閱覽字符表之外,有沒有其他比較快速的方法可以搜尋到擁有某個部件的漢字呢?像大大上面的圖那樣。
還有想問一個關於日文字型的問題,請問現在日本較常使用JIS90字形,還是JIS2004字形呢?
把 Source Serif / Sans 混進去,還是有一堆 baseline 跟字高差異要調,還是交給有興趣的人吧。
先讓專案複雜度維持在一定程度未來比較好更新,今年內官方思源黑體應該 Ver 2.000 就會發表了。
--
上面那個查閱工具是我為了選字形自己寫的,會用到 Ruby 與 Adobe 的 AFDKO,好像也不太容易公開。
基本邏輯是從思源官方給的CID列表裡去找線索。
如思源宋體的AI0-SourceHanSerif檔案,這裡有列出字型裡所有CID對應到的字符名稱。
https://github.com/adobe-fonts/source-han-serif/tree/release/Resources
字符名稱因為是Unicode,所以把同一個Unicode的所有CID找出來,就是各種異體了。
要找到Unicode裡被分離的文字的話,會更複雜一點。
Wikipedia、Unihan Databases 裡有一些 resource 文件可以參考,不過這部份最後都得自己整理。
找到所有CID後就要想辦法顯示出來,我是用 AFDKO 的 tx -pdf 啦。
--
日本現在應該是逐漸往JIS2004字形靠攏了。
感謝大大的詳細解說~對我很有幫助!!
不過如果要找到包含某一個部件的字(像是有包含「真」部件的字),有方法可以用嗎?還是純慿閱讀字符表和經驗法則呢?