gunichar

C 言語で文字列メンドクサイ | PaePoi

以前こんなことを書いたけど

Eye of GNOME 3 plugin Create | PaePoi

上記をやった時に早く気がつけよ。
g_utf8_strlen なんて解りやすい関数があるじゃないの。
一文字ずつ書き出すための変換関数もあるし。

ついでに、Linux の wchar_t は 4 byte だから多分 UCS-4 だよね。
まあ GLib を使うなら gunichar になるわけだが。
typedef guint32 gunichar;
になっているけど、つまりは 4 byte ということだし。
いわゆる普通に Unicode と呼ばれているものは gunichar2 でいいみたい。

変換は UTF-16 ではなく UCS-4 にしたほうがよさげ。
g_unichar_to_utf8 なんて楽できそうな関数もあるわけで。
Unicode Manipulation

UTF-16 に変換しようと考えてしまう所はやはり Windows でしかプログラミングできなかった頃のバカな頭がまだ抜けきらないということか。
でも UCS-4 でも str[int] の添字でイケるのかな、実験だ。

test.c

#include <glib.h>
#include <string.h>

int
main (int argc, char *argv[])
{
    /* Including Japanese characters */
    gchar c[] = "Linux 勉強中";
    /* UTF-8 Length */
    g_printf ("%s is %d characters\n", c, g_utf8_strlen(c, sizeof(c)));
    /* Converted to UCS4 */
    GError * error = NULL;
    gunichar * ucs;
    glong len = sizeof(c);
    ucs = g_utf8_to_ucs4 (c, -1, NULL, &len, &error);
    if (!ucs) {
        g_print (error->message);
        int retval = error->code;
        g_error_free (error);
        return retval;
    }
    /* Export single character */
    int i = 0;
    for (i; i<len; i++) {
        gchar cc[4];
        memset(&cc, '\0', sizeof(cc));
        g_unichar_to_utf8 (ucs[i], cc);
        g_printf ("%s\n", cc);
    }
    g_free(ucs);
    return 0;
}

Makefile

ucs: test.c
	gcc -o ucs test.c `pkg-config --cflags --libs glib-2.0`

ucs.tar.gz

添字で普通に一文字づつ取り出せるみたいね。
変換エラーチェックを入れてもコレだけだ、簡単。

しかし memset しないと ‘\0’ を入れてくれない。
まあそりゃ普通に char の %c 指定ならンナモンいらないわけだし。
どうでもいいけど ZeroMemory は Windows しか使えないと今頃知った。
やっぱり Windows でしかプログラミングをやらないのではバカになる。

端末入力なら下記でイケるみたい。
\n が入ってしまうので強引に \0 を挿入とかしているけど。

#include <glib.h>
#include <stdio.h>
#include <string.h>

int
main (int argc, char *argv[])
{
    /* Including Japanese characters */
    gchar c[256];
    fgets(c, sizeof(c), stdin);
    /* Remove '\n' */
    c[strlen(c)-1] = '\0'; 
    /* Length */
    glong len = g_utf8_strlen(c, sizeof(c));
    g_printf ("%s is %d characters\n", c, len);
    /* Converted to UCS4 */
    GError * error = NULL;
    gunichar * ucs;
    ucs = g_utf8_to_ucs4 (c, -1, NULL, &len, &error);
    /* Export single character */
    int i = 0;
    for (i; i<len; i++) {
        gchar cc[4];
        memset(&cc, '\0', sizeof(cc));
        g_unichar_to_utf8 (ucs[i], cc);
        g_printf ("%s\n", cc);
    }
    g_free(ucs);
    return 0;
}

なんかもっとスマートな方法がありそうな気がするけど。